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数 子 版 权 声 明 


图 灵 社 区 的 电子 书 没有 采用 专 有 客 
户 端 ， 您 可 以 在 任意 设备 上 ， 用 自 
己 喜 欢 的 浏览 器 和 PDF 阅 读 器 进行 
阅读 。 

但 您 购买 的 电子 书 仅 供 您 个 人 使 
用 , 未 经 授权 ， 不 得 进行 传播 。 
我 们 愿意 相信 读者 具有 这 样 的 良知 
和 觉悟 ， 与 我 们 共同 保护 知识 产 
权 。 

如 果 购 买 者 有 侵权 行为 ， 我 们 可 能 
对 该 用 户 实施 包括 但 不 限于 关闭 该 
帐号 等 维权 措施 ， 并 可 能 追究 法 律 
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Robert Laganiére 


DE 
授 ， 同 时 任教 于 学 院 成 立 的 VIVA 实 验 室 
( 主要 研究 图 像 与 视频 处 理 、 计 算 机 视 
w= EE 
服务 公司 iWatchLife 和 内 入 式 视觉 解决 方 
案 行业 引领 者 Cognivue 公 司 的 首席 科学 
家 。 他 与 人 共同 发 表 过 多 篇 科学 论文 ， 并 
获得 了 基于 内 容 的 视频 分 析 、 视 觉 监 控 、 
目标 识别 和 三 维 重 建 等 领域 的 多 项 专利 。 

2006 年 ， 他 在 泼 太 华 与 人 共同 创立 了 从 事 
视频 分 析 的 Visual Cortek 公 司 ( 2009 年 被 
iWatchLife 收 购 ) 。 


个 人 网 站 : www.laganiere.name。 


相 银 初 

1996 年 毕业 于 复旦 大 学 ， 长 期 从 事 软件 开 
发 和 项 目 管理 工作 ， 涉 及 C++、C#、 
Oracle、Linux 等 技术 ， 也 从 事 软 件 类 图 书 
的 翻译 工作 。 
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OpenCV 计 算 机 视觉 编程 攻略 : 
























































第 2 版 / (加 ) 拉 戈 尼 
































尔 著 ; 相 银 初 译 ，-- 北京 : 人 民 邮 电 出 版 社 ，2015.9 
( 图 灵 程 序 设计 丛书 ) 
ISBN 978-7-115-39850-5 
TI，G0… 开 ，@ 拉 … @ 相 … II， 台 图 象 处 理 软件 
程序 设计 IV，GDTP391. 41 
中 国 版 本 图 书馆 CIP 数 据 核 字 (2015) 第 156374 号 
内 容 提 要 
本 书 结合 C++ 和 OpenCV 全 面 讲解 计算 机 视觉 编程 ， 不 仅 涵盖 计算 机 视觉 和 图 像 处 理 的 基础 知识 ， 而 


且 通 过 完整 示例 讲解 OpenCy 的 重要 类 和 函 
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形 分 析 等 各 种 技术 ， 并 且 详细 介绍 了 如 
本 书 适合 计算 机 视觉 新 手 、 专 业 软件 开 
的 人 员 学 习 参 考 。 









































函数 ,主要 内 容 包括 OpenCV 库 的 安装 和 部 署 、 
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像 增强 、 像 素 操作 、 


何 处 理 来 自 文件 或 摄像 机 的 视频 ， 以 及 如 何 检 测 和 跟踪 移动 对 象 。 
发 人 员 、 学 生 ， 以 及 所 有 想 要 了 解 图 


像 处 理 和 计算 机 视觉 技术 


计算 机 视觉 : 电脑 和 智能 手机 的 眼睛 


人 们 经 常 将 电脑 与 人 脑 作对 比 。 电 脑 能 够 处 理 信息 ,并 且 速 度 非常 快 , 但 是 电脑 和 人 脑 仍 有 
很 多 本 质 上 的 差别 ， 其 中 之 一 就 是 获取 信息 的 方式 。 人 类 的 信息 超过 80% 是 通过 视觉 获得 的 ， 而 
电脑 的 信息 几乎 全 部 是 通过 键盘 鼠标 录入 的 。 你 也 许 会 说 电脑 中 有 很 多 多 媒体 信息 ， 如 图 像 、 视 
频 等 ， 但 严格 来 说 这 些 还 不 能 算是 “信息 ”， 因 为 电脑 只 是 存储 了 它们 ， 并 不 “认识 ”它们 。 电 
脑 存储 了 大 量 的 照片 和 视频 ， 但 不 认识 照片 上 的 人 是 谁 ， 不 知道 照片 中 的 风景 是 在 哪里 拍摄 的 。 


经 常 看 到 这 样 的 新 闻 : 某 地 为 了 破案 , 组织 几 十 位 警察 、 花 几 十 个 小 时 查看 各 路 口 的 监控 录 
像 ,查找 嫌疑 人 的 行踪 。 为 什么 这 么 麻烦 ?” 就 是 因为 电脑 只 是 录 下 视频 并 存储 起 来 ,并 没有 “ 认 
出 ”视频 中 的 人 。 和 否则 ， 只 要 一 条 数据 库 查 询 语句 就 解决 问题 了 :“select 时 间 ， 视频 监控 点 from 
监控 记录 where 视频 中 的 人 脸 = 嫌疑 人 的 脸 order by 时 间 。” 


为 解决 这 些 问 题 , 人 们 开始 发 展 计算 机 视觉 这 门 学 科 。 计 算 机 视觉 相当 于 给 电脑 装 上 了 真正 
的 眼睛 , 使 它 能 理解 所 看 到 的 内 容 。 它 的 应 用 非常 广泛 ,从 扫描 二 维 码 、 指 纹 考勤 , 到 人 脸 识别 、 
车 牌 识别 、 基 于 内 容 的 图 像 搜 索 、 根 据 拍摄 的 景物 自动 定位 、 用 手势 控制 游戏 机 、 根 据 多 幅 平 面 
图 像 还 原 3D 现 场 、 眼 球 活动 操作 电脑 〈 科 学 家 霍金 )、 无 人 驾驶 汽车 ， 等 等 。 



































































































































本 书 特色 


OpenCV 是 计算 机 视觉 领域 使 用 最 广泛 的 开源 程序 库 。 本 书 并 不 是 简单 地 列 出 各 种 函数 和 类 ， 
而 是 由 浅 入 深 地 介绍 OpenCV 及 有 关 算 法 , 让 读者 从 零 开始 学 习 计 算 机 视觉 和 OpenCV, 真正 掌握 
相关 程序 的 开发 方法 。 
通过 阅读 本 书 ， 你 将 了 解 计 算 机 视觉 的 基础 知识 ， 知 道 有 关 算 法 的 来 龙 去 脉 ， 学 会 OpenCV 
的 总 体 架 构 和 常用 功能 ， 掌 握 用 OpenCV 解 决 具 体 问题 的 方法 。 本 书 将 带 你 进入 图 像 和 视频 分 析 
的 世界 ， 揭 开 图 像 识 别 、 图 像 配 准 、 视 觉 跟 踪 、 三 维 重 建 等 技术 的 神秘 面纱 。 













































































翻译 过 程 中 的 一 些 体会 


说 实话 ,本 书 的 翻译 任务 还 是 比较 有 挑战 性 的 ,这 主要 是 因为 和 纯粹 的 软件 开发 类 书籍 相 比 ， 
本 书 所 包含 的 专业 术语 比较 多 , 并 且 很 多 术语 并 没有 统一 和 规范 的 中 文 译 法 。 部 分 专业 术语 有 多 
种 中 文 译 法 ， 却 没有 某 一 种 是 权威 的 并 且 被 大 家 接受 的 ， 有 的 甚至 儿 乎 还 没有 对 应 的 中 文 术语 。 
而 作为 一 本 正式 的 出 版 物 ， 如 果 书 中 有 太 多 的 中 英文 混杂 , 不 仅 不 够 严谨， 而 且 会 让 读者 产生 视 
觉 疲劳 ,不 利于 阅读 和 沟通 。 因 此 我 在 翻译 过 程 中 查阅 了 大 量 的 资料 , 尽 可 能 在 书 中 使 用 规范 和 
权威 的 中 文 术语 ， 如 果 确 实 没 有 ， 就 选择 较为 常用 的 译 法 。 

不 过 从 另 一 个 角度 看 , 这 也 正好 说 明 国内 该 领域 的 开发 和 应 用 还 处 于 起 步 阶段 ,有 相当 大 的 
发 展 前 景 。 随 着 计算 机 视觉 和 OpenCV 方 面 国 内 开发 人 员 和 中 文 技术 资料 的 增加 ， 该 领域 将 逐步 
建成 统一 和 规范 的 中 文 术语 库 ， 专 业 术 语 翻译 问题 很 快 会 得 到 解决 。 
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在 本 书 的 翻译 过 程 中 , 我 得 到 了 图 灵 公 司 李 松 峰 和 毛 倩 倩 老 师 的 支持 和 帮助 ,在 此 表示 感谢 。 
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OpenCV( Open source Computer Vision ) 是 一 个 开源 程序 库 , 包含 了 500 多 个 用 于 图 像 和 视频 
分 析 的 优化 算法 。 该 程序 库 建立 于 1999 年 ， 现 在 在 计算 机 视觉 领域 的 研发 人 员 社 区 中 非常 流行 ， 
被 用 作 主 要 开发 工具 。OpenCV 最 初 由 英特尔 公司 的 Gary Bradski 带 领 一 个 小 组 开发 ， 其 目的 是 推 
动 计算 机 视觉 的 研究 ,促进 基于 大 量 视觉 处 理 、CPU 密 集 型 应 用 程序 的 开发 。 在 一 系列 beta 版 本 
后 ，1.0 版 于 2006 年 发 布 。 第 二 个 重要 版 本 是 2009 年 发 布 的 OpenCV 2， 它 做 了 一 些 重要 改动 ， 特 
别 是 本 书 所 用 的 新 C++ 接口 。OpenCV 于 2012 年 改组 为 一 个 非 营利 基金 会 ( http://opencv.org/ ), 依 
靠 众 筹 进行 后 续 开 发 。 


本 书 这 一 版 对 旧版 本 中 的 所 有 编程 方法 重新 审核 和 更 新 , 还 增加 了 很 多 新 内 容 以 更 全 面 地 覆 
盖 程 序 库 的 主要 功能 点 。 本 书 介绍 了 程序 库 的 很 多 功能 , 并 且 讲 述 如 何 使 用 这 些 功 能 完成 特定 的 
任务 ， 这 样 做 的 目的 并 不 是 详细 罗列 OpenCV 中 的 所 有 函数 和 类 ， 而 是 为 读者 提供 从 零 起 步 开发 
应 用 的 方法 。 本 书 还 探讨 了 图 像 分 析 的 基本 概念 ， 介 绍 了 计算 机 视觉 的 一 些 重要 算法 。 


本 书 将 带 你 进入 图 像 和 视频 分 析 的 世界 ， 但 这 只 是 个 开始 ， 因 为 OpenCV 还 在 不 断 地 演变 和 
扩展 。 你 可 以 访问 OpenCV 的 在 线 文档 〈http:/opencv.org/ ) 获得 最 新 资料 ， 也 可 以 访问 本 书 作者 
的 个 人 网 站 www.laganiere.name 了解 有 关 本 书 的 最 新 信息 。 


























































































































内 容 速 览 

第 1 章 介绍 OpenCV 库 , 并 演示 如 何 构建 一 个 可 以 读 取 并 显示 图 像 的 简单 应 用 , 同时 介绍 基本 
的 OpenCV 数 据 结构 。 

坚 释 读 取 图 像 的 过 程 ,， 描述 了 扫描 图 像 的 不 同方 法 , 让 你 能 在 每 一 个 像素 上 执行 操作 。 


章 
第 3 章 涵 盖 了 各 种 面向 对 象 设计 模式 的 使 用 案例 ， 这 些 设计 模 式 能 帮助 你 更 好 地 构建 计算 机 
视觉 程序 。 这 一 章 也 讨论 了 图 像 中 有 关 颜 色 的 概念 。 


第 4 章 展 示 如 何 计算 图 像 的 直方 图 ， 以 及 如 何 用 直方 图 修改 图 像 。 这 一 童 介绍 了 基于 直方 图 
的 各 种 应 有 用， 包括 图 像 分 割 、 目 标 检 测 和 图 像 检索 。 


第 5 童 探讨 数学 形态 学 的 概念 ,展示 不 同 的 算 子 , 并 解释 如 何 用 这 些 算 子 检测 图 像 中 的 边界 、 












































角 点 和 区 段 。 


第 6 章 讲 解 频率 分 析 和 图 像 滤 波 的 原理 , 介绍 低 通 滤波 器 和 高 通 滤波 器 在 图 像 处 理 中 的 应 用 ， 
而 且 介绍 了 导数 算 子 的 概念 。 


第 7 章 重点 介绍 儿 何 图 像 特 征 的 检测 方法 ,解释 如 何 提取 图 像 中 的 轮 廊 、 直 线 和 连通 区 域 。 

第 8 章 介绍 图 像 的 几 种 特征 点 检测 需 。 

第 9 章 解释 如 何 计算 兴趣 点 描述 子 ， 并 用 其 在 图 像 之 间 匹 配 兴趣 点 。 

第 10 章 探讨 同一 场景 中 两 个 图 像 之 间 的 投影 关系 ,同时 描述 了 摄像 机 校准 的 过 程 , 且 重新 探 
讨 匹配 特征 点 的 问题 。 

第 11 章 提出 一 个 读 写 视频 序列 和 处 理 帧 的 框架 ,同时 说 明 它 怎样 才能 逐 帧 跟踪 特征 点 ， 以 及 
如 何 提取 在 摄像 机 前 移动 的 前 景物 体 。 


















































阅读 须知 


本 书 基于 OpenCV 库 的 C++ API 展 开 介 绍 ， 因 此 你 需要 有 使 用 C++ 语 言 的 经 验 。 男 外 ,你 还 需 
要 有 一 个 良好 的 C++ 开发 环境 以 便 运 行 和 试用 书 中 的 例子 ; 常用 的 开发 环境 有 Microsoft Visual 
Studio 和 Qt。 


读者 对 象 
本 书 适合 准备 用 OpenCV 库 开发 计算 机 视觉 应 用 的 C++ 初 学 者 ， 也 适合 想 了 解 计算 机 视觉 统 


程 概念 的 专业 软件 开发 人 员 参 考 阅 读 。 本 书 可 作为 大 学 计算 机 视觉 课程 的 学 生 用 书 , 也 是 一 本 非 
常 优秀 的 参考 书 ， 可 供 图 像 处 理 和 计算 机 视觉 方面 的 研究 生 和 科研 人 员 使 用 。 








排版 规范 

本 书 使 用 不 同 的 文本 样式 区 分 不 同类 型 的 内 容 ， 下 面 是 一 些 样式 示例 和 相关 说 明 。 

正文 中 的 代码 、 用 户 输入 等 以 这 种 格式 显示 :“cv: :Mat 的 create 方 法 内 部 封装 了 这 个 检查 
过 程 ， 用 起 来 很 方便 。” 

代码 块 的 格式 如 下 : 


// 用 Mat_ 模 板 操 作 图像 
Cv::Mat_<uchar> im2 (image); 
im2(50,100)= 0; // 访问 第 50 行 、 第 100 列 处 那个 值 
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读者 反馈 

我 们 一 贯 欢迎 读者 的 反馈 意见 。 请 告诉 我 们 你 对 本 书 的 看 法 一 一 喜欢 或 不 喜欢 哪些 内 容 。 读 
者 的 反馈 对 于 协助 我 们 创作 出 真正 对 读者 有 所 神 益 的 内 容 至 关 重 要 。 
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图 像 编程 入 门 








本 章 我 们 开始 学 习 OpenCV 库 。 你 将 学 习 : 


口 安装 OpenCV 库 ; 

口 装载 、 显 示 和 保存 图 像 ; 

口 深入 理解 cv:Mat 数 据 结构 ; 

口 定义 ROI 区 域 ( 感 兴趣 区 域 )。 





1.1 简介 


本 章 介绍 OpenCV 的 基本 要 素 ， 并 演示 如 何 完成 最 基本 的 图 像 处理 任 务 : 读 取 、 显 示 和 保存 
图 像 。 开 始 之 前 ， 首 先 需要 安装 OpenCV 库 。 安 装 过 程 非常 简单 ，1.2 节 会 详细 介绍 。 


所 有 的 计算 机 视觉 应 用 程序 都 包含 对 图 像 的 处 理 。 因 此 ，OpenCV 提 供 的 最 基础 的 工具 即 为 
一 个 操作 图 像 和 矩阵 的 数据 结构 。 此 数据 结构 功能 非常 强大 ， 具 有 多 种 实用 属性 和 方法 。 此 外 ， 
它 还 包含 先进 的 内 存 管理 模型 ,十 分 有 助 于 应 用 程序 的 开发 。 本 章 最 后 两 节 介绍 如 何 使 用 这 个 重 
要 的 OpenCV 数 据 结构 。 








1.2 安装 OpenCV 库 


OpenCV 是 一 个 开源 的 程序 库 ， 用 于 开发 在 Windows、Linux 、Android 和 Mac OS 系统 中 运行 
的 计算 机 视觉 应 用 程序 。 在 BSD 许 可 协议 下 , 它 可 以 用 来 开发 学 术 应 用 和 商业 应 用 , 可 随意 使 用 、 
发 布 和 修改 。 本 节 介 绍 如 何 安 装 OpenCV 程 序 库 。 

















1.2.1 准备 工作 


访问 OpenCV 官 方 网 站 http://opencv.org/， 你 可 以 看 到 最 新 版 程序 库 、 在 线 文档 以 及 诸多 其 他 
有 用 的 资源 。 




















2 第 1 章 图 像 编程 入 门 
1.2.2 ”安装 





在 OpenCV 网 站 上 选择 你 使 用 的 平台 (Unix 、 
DOWNLOADS (下 载 ) 页 面 ， 从 那里 下 载 OpenCV 包 ， 然 后 将 其 解压 ; 解压 的 目录 名 通 








序 
序 
日 





























制 文件 。 这 时 ， 你 必须 选 定 创建 OpenCV 程 序 所 用 的 目标 
是 Linux? 使 用 什么 编译 器 ? Microsoft VS2013 还 是 MinGW? 32 位 还 是 64 位 ? 你 在 开发 项 目 时 将 
要 使 用 的 集成 开发 环境 (IDE ) 也 会 引导 你 做 这 些 选 择 。 


Windows 或 Android )， 并 转 到 相应 的 
常 与 程 























库 版 本 一 致 ( 例如 , 在 Windows 下 可 解压 到 C:\OpenCV2.4.9 )。 解 压 之 后 ， 你 会 看 到 很 多 构成 程 
库 的 文件 和 日 录 。 注 意 有 一 个 sources 目 录 ， 它 包含 所 有 的 源 代码 文件 。( 是 的 ， 它 是 开源 的 ! ) 
是 , 要 完成 程序 库 安装 并 使 之 能 使 用 ,你 还 需 执行 一 步 操 作 : 旬 

















上 对 所 选 环境 生成 程序 库 的 二 进 
使 用 哪 种 操作 系统 ?Windows 还 





人 
口 o 





注意 ， 如 果 你 在 装 有 Visual Studio 的 Windows 环 境 下 操作 ， 可 执行 安装 包 很 可 能 不 仅仅 安装 


全 zz 上 


源 文件 ,还 可 能 安装 


构建 应 用 程序 所 需 的 已 编译 的 二 进 制 文件 。 检 查 一 人 build 目录 , 它 应 该 包含 








子 目 录 x64 和 x86 ( 分别 对 应 64 位 和 32 位 版 本 )。 这 些 子 目录 下 有 vc10、vcll 、vc12 等 目录 ， 这 些 
目录 包含 了 用 于 不 同 版 本 MS Visual Studio 的 二 进 制 文件 。 在 此 情况 下 ,除非 你 想 使 用 特殊 的 选项 





进行 个 性 化 构建 ， 和 否则 可 以 蝇 


为 了 完成 安装 过 程 并 构 
http://cmake.org 下 载 。CMake 是 男 一 个 开源 软件 工具 ， 























过 本 节 讲 解 的 编译 过 程 直接 使 用 OpenCV。 
建 OpenCV 二 进 制 文件 ， 


你 需要 使 用 CMake 工 具 ， 该 工具 可 从 
用 于 控制 使 用 了 跨 平台 配置 文件 的 软件 系 








统 的 编译 过 程 。 它 可 以 生成 在 特定 环境 下 编译 软件 库 所 需 的 makefile 和 workspace 文 件 。 因 此 你 








需要 事先 下 载 并 安装 CMake, 之 后 可 以 使 有 





日 命令 行 工具 来 


oa 


运行 


CMake ,但 更 容易 的 方法 是 使 用 GUI 





工具 ( cmake-gui )。 使 用 GUI, 你 只 需要 指定 OpenCV 库 源 文件 和 二 进 制 文件 所 在 的 目录 ， 点击 
Configure 按 钮 来 选择 适合 的 编译 器 ， 然 后 再 一 次 点 击 Configure 按 钮 。 





A CMake 3.0.0 - C:/opencv2.4.9/build/x86/Min... 





Where is the source code: |C:/opencv2.4.9/sources 








Where to build the binaries: | C:/opencv2.4.9/build/x86/MinGW 


Browse Source... 


了 | Browse Build... 





| 加 | 











Search: 「 Grouped 『「 Advanced 号 Add Entry 
Name Value A 


cmake-gui ? 








Press Configure to update and display new values in red, then press Generate 
selected build files. 
Configure 


Generate Current Generator: None 





(€ pecify the generator for this project 








[MinGw Makefiles 


各 Use default native compilers 








Specify native compilers 
© Specify toolchain file for cross-compiling 


© Specify options for cross-compiling 


Bac Finish Cancel 
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现在 可 以 点 击 Generate 按 钮 生成 项 目 文件 了 , 这 些 项 目 文件 用 来 编译 程序 库 。 这 是 安装 过 程 
的 最 后 一 个 步骤， 会 生成 能 在 指定 的 开发 环境 下 使 用 的 程序 库 。 例 如 ， 如 果 你 选用 Visual Studio ， 
那么 只 需要 打开 由 CMake 创 建 的 位 于 顶层 的 解决 方案 文件 (通常 是 OpenCV.sIn 文 件 )， 然 后 在 
Visual Studio 中 输入 Builda solution 命 令 。 如 果 要 得 到 Release 和 Debug 两 个 版 本 ,你 就 需要 
编译 两 次 一 一 每 个 相应 的 配置 一 次 。 在 已 创建 的 目录 bin 下 包含 动态 库 文 件 ， 可 执行 文件 在 运行 
时 需要 调用 这 些 动态 库 文件 。 别 忘 了 在 控制 面板 中 设置 环境 变量 PATH， 以 确保 运行 程序 时 操作 
系统 能 找到 这 些 dll 文 件 。 

















_ System P| | 
© ~ 个 里 ; ControlPanel » System and Security » System v © Search Control Pane pd 
@@ 人 
Control Panel Home 
1 Environment Variables 
System Properties 
盟 Device Manager 
ComputerName | Hardware Advanced System Protection | Remote User variables for laganiere 
盟 Remote settings 
Variable i m Variabl 
system protection You must be logged on as an Administrator to make most ofthese changes. Edit System Variable 
JAVA_HOM 
Performance 
Advanced system settings TEMP 
Visual effects, processor scheduling. memory usage.andvitual memory Variable name: Path 
Variable value: ake\bin;C:\opencv2.4.9\build\x64\vc12\bin 
Settings. 
OK Cancel 
User Profiles 
Desktop setings related to your sign-in Ee 
Setings Variable Value 入 
Path C:\Program Files (x86)\Intel\iCLS Client... 
PATHEXT .COM;.EXE;.BAT;.CMD;.VBS;.VBE;.]S;.... 
Startup and Recovery 
PROCESSOR_AR... AMD64 
System startup. system failure. and debugging information PROCESSOR_ID... Intel64 Family 6 Model 69 Stepping 1, ... 
Solings. New... Edit... Delete 
Nioh Centir Environment Variables. a 
Windows Update 
v 
OK Cancel 











在 Linux 环 境 中 , 你 可 用 make 实 用 命令 运行 前 面 生成 的 makefile 文 件 。 为 了 完成 所 有 目录 的 安 


装 ， 你 需要 运行 Buila INSTALL 或 者 sudo make _ INSTALL 命令。 
在 构建 程序 库 之 前 ， 一 定 要 检查 一 下 OpenCV 安 装 程序 产生 的 内 容 ; 安装 程序 可 能 已 经 产生 


了 程序 库 ， 那 样 就 可 免 去 编译 的 步骤。 如果 要 使 用 Qt 作为 IDE，1.2.4 节 描述 了 编译 OpenCV 项 目 
的 另 一 种 方法 。 






































1.2.3 ”实现 原理 


从 2.2 版 开始 ，OpenCV 库 就 分 成 了 几 个 模块 。 这 些 模块 是 内 置 的 库 文件 ,位 于 lib 目 录 下 。 其 
中 常用 的 模块 有 : 


口 opencv_core 模 块 ， 包 含 了 程序 库 的 核心 功能 ， 特 别 是 基本 的 数据 结构 和 算法 函数 ; 
口 opencv_imgproc 模 块 ， 包 含 了 主要 的 图 像 处 理 函 数 ; 
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口 opencv_highgui 模 块 ， 包含 图 像 、 视 频 读 写 函 数 和 部 分 用 户 界面 函数 ; 
口 opencv_features2d 模 块 ， 包含 特征 点 检测 器 、 描 述 子 以 及 特征 点 匹配 框架 ; 
口 opencv_calib3d 模 块 ， 包 含 相 机 标定 、 双 视角 几何 估计 以 及 立体 函数 ; 
Dopencv_video 模 块 ， 包 含 运动 估计 、 特 征 跟踪 以 及 前 景 提取 函数 和 类 ; 
口 opencv_objdetect 模 块 ， 包含 目 标 检测 函数 ， 例 如 面部 和 人 体 探测 器 。 


OpenCV 库 还 包含 了 其 他 实用 模块 : 机 融 学 习 函 数 ( opencv_ml )、 计 算 几 何 算法 
(opencv_flann )、 共 享 代码 ( opencv_contrip )、 过 时 的 代码 (opencv_legacy ) 以 及 GPU 
加 速 代码 ( opencv_gpu )。 此 外 还 有 一 些 专门 用 来 实现 较 高 层次 函数 的 库 ， 例 如 用 于 计算 摄影 
的 opencv_photo 和 实现 图 像 拼 接 算法 的 opencv_s titching。 另外 还 有 一 个 opencv_nonfree 
模块 ， 它 包含 在 使 用 过 程 中 可 能 有 限制 的 函数 。 如 果 程 序 用 到 了 某 些 OpenCV 函 数 ， 你 就 必须 在 
编译 时 将 程序 与 包含 这 些 函 数 的 库 链 接 。 一 般 来 说 ， 使 用 刚才 列 出 的 前 三 个 模块 ， 然 后 根据 具体 
程序 的 作用 域 选择 其 他 模块 。 


所 有 这 些 模块 都 有 一 个 对 应 的 头 文件 ( 位 于 include 目 录 中 )。 因 此 ， 典 型 的 OpenCV C++ 代码 
会 首先 包含 必需 的 模块 。 例 如 ( 这 是 推荐 的 声明 样式 ): 







































































#include <opencv2/core/core.hpp> 
#include <opencv2/imgproc/imgproc.hpp> 
#include <opencv2/highgui/highgui .hpp> 


下 载 示 例 代码 
1 
六 若 用 Packt 账 号 购买 了 本 书 英文 版 ， 你 可 以 从 http:/www.packtpub.com 下 载 示 
例 代 码 文件 "。 如 果 你 是 从 其 他 地 方 购买 的 本 书 英文 版 ， 那 么 可 以 访问 


http://www.packtpub.com/support 并 注册 ， 然 后 会 通过 邮件 接收 到 文件 。 


你 可 能 会 看 到 用 以 下 命令 开头 的 OpenCV 代 码 : 





#include "cv.h" 


这 是 因为 在 程序 库 被 重 构 成 多 个 模块 之 前 ， 应 用 使 用 了 老式 的 风格 。 最 后 要 注意 的 是 ， 以 后 
OpenCV 还 会 被 重 构 ， 因 此 ， 如 果 你 下 载 2.4 以 后 的 版 本 ,模块 的 划分 可 能 会 不 同 。 



































1.2.4 扩展 阅读 


OpenCV 网 站 http://opencv.org/ 上 有 详细 的 安装 说 明 ， 还 有 完整 的 在 线 文档 ， 包 括 几 个 针对 程 
序 库 中 不 同 组 件 的 教程 。 














@D 本 书 中 文 版 的 读者 可 免费 注册 iTuring.cn， 至 本 书页 面 下 载 。 一 一 编者 注 
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1. 使 用 Qt 进行 OpenCV 开 发 


Qt 是 开发 C++ 应 用 程序 的 跨 平 台 IDE, 是 作为 开源 项 目 发 展 起 来 的 。 你 可 以 在 LPGL 开 源 协议 
下 使 用 Qt， 也 可 以 在 商业 (付费 ) 协议 下 用 Qt 开发 专 有 项 目 。 它 由 两 个 独立 的 部 分 组 成 : 一 个 称 
为 Qt creator 的 跨 平 台 IDE、 一 系列 Qt 类 库 和 开发 工具 。 使 用 Qt 来 开发 C++ 应 用 程序 有 以 下 好 处 : 


口 它 是 由 Qt 社区 发 起 的 开源 项 目 ， 提 供 各 种 Qt 组 件 的 源 代 码 ; 
口 它 是 一 个 跨 平台 IDE， 这 意味 着 开发 的 应 用 程序 能 在 不 同 操作 系统 上 运行 ， 如 Windows、 
Linux、Mac OS X 等 ; 
口 它 包含 了 一 个 完整 并 且 跨 平台 的 GUI 库 ， 遵 循 高 效 的 面向 对 象 和 事件 驱动 的 模型 ; 
口 Qt 还 包含 几 个 跨 平台 库 ， 有 助 于 开发 多 媒体 、 图 形 、 数 据 库 、 多 线程 、Web 应 用 以 及 很 多 
用 于 设计 高 级 应 用 程序 的 有 趣 的 构建 模块 。 

你 可 以 从 http:/qt-project.org/ 下 载 Qt。 在 安装 Qt 时 需要 选择 不 同 的 编译 器 。 在 Windows 下 ， 

MinGW 是 一 款 可 以 用 来 取代 Visual Studio 的 非常 不 错 的 编译 器 。 


因为 Qt 可 以 读 取 CMake 文 件 , 用 它 来 编译 OpenCV 特 别 容易 。 在 安装 OpenCV 和 CMake 后 ,你 
只 需要 在 Qt 菜单 中 选择 Open File 或 者 Project...， 打开 OpenCV 中 sources 目 录 下 的 CMakeLists.txt 文 
件 ， 这 样 就 会 生成 一 个 用 Bui19 Project Qt 命令 构建 的 OpenCV 项 目 : 





























区 OpenCV - Qt Creator 一 口 


Eile Edit Build Debug Analyze Tools Window Help 








vex «9 <no document> 





Projects 


CMakelLists.txt 





| 

在 3rdparty 
在 apps 

A cmake 
data 

忆 doc 

A include 
A modules 









In member function ‘virtual cv:Algorithmlnfo* {anonymous}::Farneback_GP gpumat.hpp 
A array subscript is above array bounds [-Warray-bounds] gpumathpp 374 
全 array subscript is above array bounds [-Warray-bounds] gpumathpp 374 

















ER search Res... ED Application ... NE compite 0u...NE ems co… WE 








6 第 1 章 图 像 编 程 入 门 





2. OpenCV 开 发 者 站 点 


OpenCV 是 一 个 开源 项 目 ， 非 常 欢迎 用 户 做 出 贡献 。 你 可 以 访问 开发 者 网 站 http://code. 
opencv.org。 除 此 之 外 ， 你 也 可 以 获得 当前 已 经 开发 完毕 的 OpenCV 版 本 。 这 个 社区 使 用 Git 作 为 
版 本 控制 系统 ， 因 此 必须 使 用 Git 来 获得 最 新 版 本 的 OpenCV。 作 为 一 个 免费 、 开 源 的 软件 系统 ， 
Git 可 能 是 管理 源 代码 的 最 好 工具 ， 它 可 在 http://git-scem.com/ 下 载 。 





























1.2.5 ”参阅 


口 作者 的 网 站 (www.laganiere.name ) 上 有 安装 最 新 版 本 OpenCV 库 的 详细 步 又 ; 
口 1.3.4 节 详解 如 何 用 Qt 创建 OpenCV 项 目 。 








1.3 装载、 显示 和 存储 图 像 


现在 我 们 开始 运行 第 一 个 OpenCV 应 用 程序 。 既 然 OpenCV 是 处 理 图 像 的 , 这 里 我 们 来 演示 几 
个 图 像 程 序 开发 中 最 基本 的 操作 ， 即 从 文件 中 装载 一 个 输入 的 图 像 、 在 窗口 中 显示 图 像 、 应 用 一 
个 处 理 函 数 ， 然 后 把 输出 图 像 存 储 到 磁盘 。 
































1.3.1 准备 工作 


使 用 你 喜欢 的 IDE ( 例如 MS Visual Studio 或 者 Qt ) 新 建 一 个 控制 台 应 用 程序 ， 使 用 待 填充 内 
容 的 main 轴 数 。 














1.3.2 ”如 何 实现 


首先 要 引入 头 文件 ,这些 头 文件 定义 了 所 需 的 类 和 函数 。 这 里 我 们 只 是 简单 地 显示 一 个 图 像 ， 
因此 需要 定义 了 图 像 数据 结构 的 核心 库 和 包含 了 所 有 图 形 接口 函数 的 highgui 头 文件 : 




















#include <opencv2/core/core.hpp> 
#include <opencv2/highgui/highgui .hpp> 


在 main 函 数 中 ， 首 先 定义 一 个 表示 图 像 的 变量 。 在 OpenCV 2 中 ， 定 义 cv: :Mat 类 的 对 象 : 
cv::Mat image; // 创建 一 个 空 图 像 


这 个 定义 创建 了 一 个 尺寸 为 0x0 的 图 像 。 可 以 访问 cv: :Mat 的 size 属 性 来 验证 这 一 点 : 

















std::cout << "This image is " << image.rows << " 文 " 
<< image.cols << std::endl; 


接 下 来 只 需 调用 读 函 数 ， 即 会 读 入 一 个 图 像 文件 ， 解码， 然后 分 配 内 存 : 
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image= cvVv::imread ("puppy .bmp"); // 读 取 输入 图 像 | 


现在 可 以 使 用 这 个 图 像 了 。 但 是 要 先 检查 图 像 的 读 取 是 否 正确 ( 如 果 找 不 到 文件 、 文 件 被 破 
坏 或 者 文件 格式 无 法 识别 ， 就 会 发 生 错误 )。 用 下 面 的 代码 来 验证 图 像 是 否 有 效 : 








if (image.empty()) { // 错误 处 理 
// 可 能 显示 一 个 错误 消息 
// 并 退出 程序 
， Ee 
如 果 没 有 分 配 图 像 数 据 ，empty 方 法 返回 Erue。 
对 这 个 图 像 的 第 一 个 操作 就 是 显示 它 。 你 可 以 使 用 highgui 模 块 的 函数 来 实现 , 先 定义 用 来 
显示 图 像 的 窗口 ， 然 后 让 图 像 在 指定 的 窗口 中 显示 : 
// 定义 窗口 (可 选 ) 
cvV::namedqWindow("Original Image"); 
// 显示 图 像 
cvV: :imshow("Original Image", image); 
可 以 看 到 ， 这 个 窗口 是 用 名 称 来 标识 的 。 我 们 稍 后 可 以 重用 这 个 窗口 来 显示 其 他 图 像 ， 也 可 
以 用 不 同 的 名 称 创建 多 个 窗口 。 运 行 这 个 应 用 程序 ， 可 看 到 如 下 的 图 像 窗 口 : 








央 Original Image ”一 














这 时 ， 我 们 通常 会 对 图 像 做 一 些 处 理 。OpenCV 提 供 了 众多 的 处 理 函 数 ， 本 书 将 对 其 中 一 些 
进行 深入 探讨 。 我 们 先 来 看 一 个 将 图 像 水 平 翻转 的 简单 函数 。OpenCV 中 有 些 图 像 转 换 过 程 是 就 
地 进行 的 ， 即 转换 过 程 直接 在 输入 的 图 像 上 进行 (不 创建 新 的 图 像 )。 这 里 讲 的 是 用 翻转 方法 转 
化 图 像 的 例子 。 不 过 ,我 们 总 是 可 以 创建 一 个 新 的 矩阵 来 存放 输出 结果 ， 下 面 就 采用 这 种 方法 : 

cv::Mat result; // 创建 另 一 个 空 的 图 像 

cv::flip(image,result,1); // 正 数 表 示 水 平 ， 


// 0 表示 垂直 ， 
// 负数 表示 水 平和 垂直 
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在 另 一 个 窗口 显示 结 


cv::namedqWindqow("Output Image"); // 输出 窗口 
cv::imshow("Output Image", result); 


因为 它 是 控制 台 窗 口 ， 会 在 main 函 数 结束 时 关闭 ， 所 以 我 们 增加 一 个 额外 的 highgui 函 数 ， 
需要 用 户 键 入 数值 才能 结束 程序 : 


CV: :WaitKey (0); // 0 表示 永远 地 等 待 按键 ， 
// 正 数 表示 等 待 指 定 的 毫秒 数 


我 们 可 以 在 另 一 个 窗口 上 看 到 输出 的 图 像 ， 如 下 : 








Output Image 一 口 














最 后 可 以 使 用 下 面 的 highgui 函数 把 处 理 过 的 图 像 存储 在 磁盘 里 : 
cv::imwrite("output.bmp"，result); // 保存 结果 


保存 图 像 时 会 根据 文件 名 后 级 决定 使 用 哪 种 编码 方式 。 其 他 常见 的 受 支 持 图 像 格 式 是 JPG、TIFF 
和 PNG。 


1.3.3 ”实现 原理 

在 OpenCV 的 C++ API 中 ， 所 有 类 和 函数 都 在 命名 空间 cv 内 定义 。 我 们 有 两 种 方法 可 以 访问 
它们 ， 第 一 种 方法 是 在 定义 main 函 数 前 使 用 如 下 声明 : 

using namespace cv; 

第 二 种 方法 是 使 用 命名 空间 规范 给 所 有 OpenCV 的 类 和 函数 加 上 前 级 cv: :, 本 书 即 采用 这 种 
方法 。 使 用 前 级 可 让 OpenCV 的 类 和 函数 更 容易 识别 。 


在 highgui 模 块 中 有 一 批 函 数 可 用 来 方便 地 显示 图 像 和 对 图 像 进 行 操作 。 在 使 用 imread 函 
数 装载 图 像 时 ,你 可 以 通过 设置 选项 把 它 转 换 为 灰 度 图 像 。 这 个 选项 非常 实用 ,因为 有 些 计 算 机 


1.3 装载、 显示 和 存储 图 像 ” 9 











视觉 算法 是 必须 使 用 灰 度 图 像 的 。 在读 入 图 像 的 同时 进行 色彩 转换 , 这 可 以 提高 运行 速度 并 减少 
内 存 使 用 。 做 法 如 下 : 

// 读 入 一 个 图 像 文 件 并 转换 为 灰 度 图 像 

image= cv::imread("puppy.bmp", CV_LOAD IMAGE GRAYSCALE); 

这 样 生成 的 图 像 由 无 符号 字 节 ( C++ 中 为 unsigneqd char ) 构成 ， OpenCV 中 用 定义 的 常量 
cV_8U 表 示 。 另 外 ， 即 使 图 像 是 作为 灰 度 图 像 保 存 的 ， 有 时 仍 需要 在 读 人 时 把 它 转 换 成 三 通道 彩 
色 图 像 。 要 实现 这 个 功能 ， 可 把 imread 函 数 的 第 二 个 参数 设置 为 正 数 : 

// 读 取 图 像 ， 并 转换 为 三 通道 彩色 图 像 

image= cv::imread("puppy.bmp", CV_LOAD_ IMAGE COLOR); 

这 样 创建 的 图 像 中 每 个 像素 有 3 字 节 ,OpenCV 中 用 cv_8UC3 表 示 。 当 然 了 ,如 果 输 入 的 图 像 
文件 是 灰 度 图 像 , 这 三 个 通道 的 值 就 是 相同 的 。 最 后 , 如 果 要 在 读 入 图 像 时 采用 文件 本 身 的 格式 ， 
只 需 把 第 二 个 参数 设置 为 负数 。 可 用 channels 方 法 检查 图 像 的 通道 数 ; 


std::cout << "This image has " 













































































<< image.channels() << " channel (s)"; 
注意 ， 当 用 ;imzead 打 开路 径 指定 不 完整 的 图 像 时 (前面 例 子 的 做 法 )，imread 会 自动 采用 默 
认 目 录 。 如 果 从 控制 台 运行 程序 , 默认 目录 显然 就 是 可 执行 文件 所 在 的 目录 。 但 是 如 果 直 接 在 IDE 























中 运行 程序 , 这 个 默认 目录 通常 就 是 项 目 文件 所 在 的 目录 , 因此 要 确保 图 像 文件 在 正确 的 目录 下 。 

如 果 用 imshow 显 示 的 图 像 是 由 整数 ( cv_16U 表 示 16 位 无 符号 整数 ，cv_32s 表 示 32 位 有 符 
号 整数 ) 构成 的 ,图像 每 个 像素 的 值 会 被 除 以 256， 以 便 能 够 在 256 级 灰 度 中 显示 。 同 样 , 在 显示 
由 浮 点 数 构成 的 图 像 时 ， 值 的 范围 会 被 假设 为 从 0.0 ( 显示 黑色 ) 到 1.0 ( 显示 白色 )。 超出 这 个 范 
围 的 值 会 显示 为 白色 (大 于 1.0 的 值 ) 或 黑色 (小 于 0.0 的 值 )。 

highgui 模 块 非常 适用 于 构建 原型 程序 。 在 生成 最 终 版 本 的 程序 时 ， 你 很 可 能 会 用 到 IDE 提 
供 的 GUI 模 块 ， 这 样 会 让 程序 看 起 来 更 专业 。 

这 个 程序 同时 使 用 了 输入 图 像 和 输出 图 像 , 练习 时 你 可 以 对 这 个 简单 程序 做 一 下 改动 , 改 成 
就 地 处 理 的 方式 ， 也 就 是 不 定义 输出 图 像 而 直接 写 入 原 图 像 : 


cv::flip(image,image,1); // 就 地 处 理 

































































1.3.4 扩展 阅读 


highgui 模 块 中 有 大 量 可 用 来 处 理 图 像 的 函数 , 运用 这 些 函 数 可 以 使 程序 对 鼠标 或 键盘 事件 
做 出 响应 ， 也 可 以 在 图 像 上 绘制 轮廓 或 写 人 文本 。 


1. 在 图 像 上 点 击 


你 可 以 通过 编程 实现 鼠标 置 于 图 像 窗口 上 时 运行 特定 的 指令 。 要 实现 这 个 功能 , 需 定义 一 个 
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适当 的 回调 函数 。 回 调 函数 不 会 被 显 式 地 调用 , 但 是 会 在 响应 特定 事件 (这 里 是 指 有 关 鼠 标 与 图 
像 窗口 交互 的 事件 ) 的 时 候 被 程序 调用 。 为 了 能 被 程序 识别 ， 回 调 函 数 需 要 具有 特定 的 签名 ， 并 
且 必 须 注册 。 对 于 这 种 鼠标 事件 处 理 函数 ， 回 调 函 数 必须 具有 这 种 签名 : 




















void onMouse( int event, int x, int y, int flags, void* param); 


第 一 个 参数 是 整数 , 表示 触发 回调 函数 的 鼠标 事件 的 类 型 。 后 面 两 个 参数 是 事件 发 生 时 鼠标 
的 位 置 ， 用 像素 坐标 表示 。 参 数 f1ags 表 示 事 件 发 生 时 按 下 了 鼠标 的 哪个 键 。 最 后 一 个 参数 是 执 
行 任意 对 象 的 指针 ， 作 为 附加 的 参数 发 送 给 函数 。 你 可 用 下 面 的 方法 在 程序 中 注册 回调 函数 : 











cv::setMouseCallback ("Original Image", onMouse, 
reinterpret_cast<void*>(&image)); 


本 例 中 ， 函 数 onMouse 与 名 为 Original Image ( 原始 图 像 ) 的 图 像 窗口 建立 关联 ， 同 时 把 所 
显示 图 像 的 地 址 作为 附加 参数 传 给 函数 。 现在, 只 要 用 下 面 的 代码 定义 回调 函数 onMouse, 每 当 
遇 到 鼠标 点 击 事件 时 ， 控 制 台中 就 会 显示 对 应 像素 的 值 ( 这 里 我 们 假定 它 是 灰 度 图 像 )。 








void onMouse( int event, int x, int y, int flags, void* param) { 





cv::Mat *im= reinterpret_cast<cv::Mat*> (param); 
switch (event) { // 调度 事件 
case CV_EVENT_LBUTTONDOWN: // 鼠标 左 键 按 下 事件 


// 显示 像素 值 (x,y) 


Statroout ee Vat (Vee KET TET) Varie Le 
<< static cast<int>( 
im->at<uchar>(cv::Point (x,y))) << std::endl; 
break; 


} 
} 


这 里 用 cv: :Mat 对 象 的 at 方法 来 获取 (x, y ) 的 像素 值 ， 第 2 章 会 详细 讨论 这 个 方法 。 鼠 标 
事件 的 回调 函数 可 能 收 到 的 事件 还 有 : CV_EVENT _MOUSEMOVE、CV_EVENT_LBUTTONUP 、 
CV_EVENT_RBUTTONDOWN 、CV_EVENT_RBUTTONUP。 























2. 在 图 像 上 绘图 


OpenCV 还 提供 了 几 个 用 于 在 图 像 上 绘制 形状 和 写 和 人 文本 的 函数 。 基 本 的 形状 绘制 函数 有 
circle、ellipse、line、rectangle。 这 是 一 个 使 用 circle 也 数 的 例子 : 

















cv::circle (image, // 目标 图 像 
CVErEOLnt (LSSL1O) // 中 心 点 坐标 
65, // 半径 
0, // 颜色 (这 里 用 黑色 ) 


3); // 厚度 
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在 OpenCV 的 方法 和 函数 中 ,我 们 经 常用 cv: :point 结构 来 表示 像素 的 坐标 。 这 里 假定 是 在 二 | 
灰 度 图 像 是 进行 绘制 ， 因 此 我 们 用 单个 整数 来 表示 颜色 。 在 1.4 节 我 们 将 学 习 如 何 使 用 
cv: :Scalar 结 构 表 示 彩 色 图 像 颜 色 值 。 你 也 可 以 在 图 像 上 写 入 文本 ,方法 如 下 : 











cv: :putText (image, // 目标 图 像 
"This is a dog.™, // 文本 
cv::Point (40,200), // 文本 位 置 
cv: :FONT_ HERSHEY_PLAIN, // 字体 类 型 
560; // 字体 大 小 
255, // 字体 颜色 (这 里 用 和 白色) 
2) ; // 文本 厚度 





在 测试 图 像 上 调用 上 述 两 个 函数 后 ， 得 到 的 结果 如 下 图 所 示 : 





加 | Drawing on an Image 一 口 


当 和 2 


This is'a dog. 














3. 用 Qt 运行 示例 程序 


要 使 用 Qt 运行 OpenCV 应 用 程序 ， 你 需要 创建 项 目 文件 。 针 对 本 节 中 的 例子 ,项 目 文 件 
( loadDisplaySave.pro ) 显示 如 下 : 


QT += Core 
QT -= gui 


TARGET = loadDisplaySave 
CONFIG += Console 
CONFIG -= app_bundle 


TEMPLATE = app 


SOURCES += loadDisplaySave.cpp 

INCLUDEPATH += C:\OpenCVv2.4.9\pbuild\include 

LIBS += -LC:\OpenCV2.4.9\build\x86\MinGWat32\1ib \ 
-lopencv_core249 \ 

-lopencv_imgproc249 \ 

-lopencv_highgui249 
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这 个 项 目 文件 表明 了 头 文件 和 库 文件 所 在 的 路 径 , 还 列 出 了 示例 程序 所 用 的 库 模 块 。 请 确保 
选用 的 库 文 件 与 Qt 编译 器 兼容 。 网 上 下 载 的 本 书 示例 程序 的 源 代码 中 包含 了 CMakeLists 文 件 ,可 

















以 用 Qt ( 或 CMake ) 打开 ， 用 来 创建 有 关 项 目 。 


1.3.5 ”参阅 





1.4 深入 了 解 cv: :Mat 








D cv: :Mat 类 是 用 来 存放 图 像 ( 以 及 其 他 和 矩阵 数据 ) 的 数据 结构 。 在 所 有 OpenCV 类 和 函数 
中 ， 这 个 数据 结构 具有 核心 地 位 ，1.4 节 我 们 将 对 它 做 详细 介绍 。 
口 你 可 以 从 这 里 下 载 本 书 示 例 程序 的 源 代码 : https://github.com/laganiere/。 





1.3 节 提 到 了 cv: :Mat 数 据 结 构 。 正 如 前 面 所 说 ， 它 是 程序 库 中 的 关键 元 素 ， 用 来 操作 图 像 
和 和 矩阵 〈 从 计算 机 和 数学 的 角度 看 ， 图 像 其 实 就 是 矩阵 )。 在 开发 程序 时 你 会 经 常用 到 这 个 数据 
结构 ,因此 有 必要 熟悉 它 。 通 过 本 节 的 学 习 你 将 了 解 到 它 采 用 了 很 马 妙 的 内 存 管 理 机 制 ， 因 此 文 


持 高 效 的 内 存 使 用 。 


1.4.1 ”如何 实现 


下 面 的 程序 可 用 来 测试 cv: :Mat 数 据 结构 的 不 同 





#include <iostream> 
#include <opencv2/core/core.hpp> 
#include <opencv2/highgui/highgui .hpp> 




















// 测试 函数 ， 它 创建 一 个 图 像 


cv::Mat function() 


// 创建 图 像 


cv::Mat ima(500,500,CV_8U,50); 





// 返回 图 像 
return ima; 


} 


int main() { 

// 定义 图 像 窗口 

Cv: :namedWindow 
Cv: :namedWindow 
Cv: :namedWindow 
Cv: :namedWindow 
Cv: :namedWindow 
Cv: :namedWindow 





0 
人 
0 
0 
人 
0" 


Image 
Image 
Image 
Image 
Image 


Image" 


2 
3 
4 
5] 
) 


// 创建 一 个 240 行 x 320 列 的 新 


cv::Mat imagel (240,320,CV_8U,100); 





图 像 














沿 
滞 
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cv::imshow("Image"，image1); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 








// 重新 分 配 一 个 新 的 图 像 
imagel .create(200,200,CV_8U); 
imagel= 200; 





cv::imshow("Image"，imagel); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 


// 创建 一 个 红色 的 图 像 
// 通道 次 序 为 BGR 
cv::Mat image2(240,320,CV_8UC3,cv::Scalar(0,0,255)); 


// 或 者 : 
// cv::Mat image2 (cv::Size(320,240),CV_8UC3); 
// image2= cv::Scalar(0,0,255); 





cv::imshow("Image"，image2); // 显示 图 像 
cv: :waitKey (0); // 等 待 按键 


// 读 入 一 个 图 像 
cv::Mat image3= cv::imread("puppy .bmp"); 


// 所 有 这 些 图 像 都 指向 同一 个 数据 块 
cv::Mat image4 (image3); 
imagel= image3; 


// 这 些 图 像 是 源 图 像 的 副本 图 像 
image3 .copyTo (image2); 
cv::Mat image5= image3.clone(); 








// 转换 图 像 用 来 测试 


cv::flip(image3,image3,1); 





// 检查 哪些 图 像 在 处 理 过 程 中 受到 了 影响 
cv::imshow("Image 3", image3); 

cv::imshow("Image 1", imagel); 
cv::imshow("Image 2", image2); 
) 
) 


cv::imshow("Image 4", image4); 
cv::imshow("Image 5", image5 


cv: :waitKey (0); // 等 待 按键 


’ 


// 从 函数 中 获取 一 个 灰 度 图 像 


cv::Mat gray= function(); 





cv::imshow("Image"，gray); // 显示 图 像 
cv::waitKey(0); // 等 待 按键 


// 作为 灰 度 图 像 读 入 
imagel= cv::imread("puppy.bmp", CV_LOAD_ IMAGE GRAYSCALE); 
imagel .convertTo(image2,CV_32F,1/255.0,0.0); 
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cv::imshow("Image"，jimage2); // 显示 图 像 
cv::waitKey(0); // 等 待 按键 


return 0; 








Image 3 














1.4.2 ”实现 原理 


cv: :Mat 有 两 个 必 不 可 少 的 组 成 部 分 : 一 个 头 部 和 一 个 数据 块 。 头 部 包含 了 和 矩 阵 的 所 有 相关 
言 息 ( 大 小 、 通 道 数量 、 数 据 类 型 等 )，1.3 节 介绍 了 如 何 访 问 cv: :Mat 头 部 文件 的 某 些 属性 ( 例 
如 ， 通 过 使 用 cols 、rows 或 channels )。 数 据 块 包含 了 图 像 中 所 有 像素 的 值 。 头 部 有 一 个 指向 
数据 块 的 指针 ， 即 aata 属 性 。cv: :Mat 有 一 个 很 重要 的 属性 ， 即 只 有 在 明确 要 求 时 ， 内 存 块 才 
会 被 复制 。 实 际 上 , 大 多 数 操作 仅仅 复制 了 cv: :Mat 的 头 部 ,因此 多 个 对 象 会 同时 指向 同一 个 数 
据 块 。 这 种 内 存 管 理 模式 可 以 提高 应 用 程序 的 运行 效率 ， 避 免 内 存 泄漏 ,但 是 我 们 必须 了 解 它 带 
来 的 后 果 。 本 节 的 例子 会 对 这 点 进行 说 明 。 


新 创建 的 cv: :Mat 对 象 默认 大 小 为 0， 但 也 可 以 指定 一 个 初始 大 小 ， 例 如 : 


// 创建 一 个 240 行 x 320 列 的 新 图 像 

cv::Mat imagel (240,320,CV_8U,100); 

我 们 需要 指定 每 个 矩阵 元 素 的 类 型 ， 这 里 我 们 用 cv_8U 表 示 每 个 像素 对 应 1 字 节 ， 用 字母 Uu 表 
示 无 符号 ; 你 也 可 用 字母 s 表 示 有 符号 。 对 于 彩色 图 像 ， 你 应 该 用 三 通道 类 型 (cv_8Uc3 ), 也 可 
以 定义 16 位 和 32 位 的 整数 ( 有 符号 或 无 符号 ), 例如 cv_16sc3。 我 们 甚至 可 以 使 用 32 位 和 64 位 的 
浮 点 数 ( 例如 cv_32F )。 
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图 像 (或 矩阵 ) 的 每 个 元 素 都 可 以 包含 多 个 值 ( 例如 彩色 图 像 中 的 三 个 


通道 )， 因此 OpenCV 








引入 了 一 个 简单 的 数据 结构 cv: :scalar， 用 于 在 调用 函数 时 传递 像素 值 。 





该 结构 通常 包含 一 个 


或 三 个 值 。 例 如 ， 要 创建 一 个 彩色 图 像 并 用 红色 像素 初始 化 ， 可 用 如 下 代码 : 


// 创建 一 个 红色 图 像 
// 通道 次 序 是 BGR 
cv::Mat image2(240,320,CV_8UC3,cv::Scalar(0,0,255)); 


类 似 地 ， 初 始 化 灰 度 图 像 可 这 样 使 用 这 个 数据 结构 : cv: :scalar (100)。 

图 像 的 大 小 信息 通常 也 需要 传递 给 调用 函数 。 前 面 讲 过 ， 我 们 可 以 用 属性 cols 和 rows 来 获 
得 cv: :Mat 实 例 的 大 小 。cv: :Size 结 构 包 含 了 矩阵 高 度 和 宽度 , 同样 可 以 提供 图 像 的 大 小 信息 。 
另外 ,我们 可 用 size() 方 法 来 得 到 当前 矩阵 的 大 小 。 当 需要 指明 和 矩阵 的 大 小 时 ， 很 多 方法 都 使 














用 这 种 格式 。 
例如 ， 可 以 这 样 创建 一 个 图 像 : 


// 创建 一 个 未 初始 化 的 彩色 图 像 
cv::Mat image2 (cv::Size(320,240),CV_8UC3); 


我 们 可 以 随时 用 create 方 法 分 配 或 重新 分 配 图 像 的 数据 块 ， 如 果 图 像 

















已 经 分 配 ， 首 先 其 原 


来 的 内 容 会 被 释放 。 处 于 对 性 能 上 的 考虑 ， 如果 新 的 大 小 和 类 型 与 原来 的 相同 ,就 不 会 重新 分 配 


内 存 : 


// 重新 分 配 一 个 新 图 像 
// ( 仅 在 大 小 或 类 型 不 同时 ) 
imagel.create(200,200,CV_8U) ; 











一 旦 没有 了 指向 cv: :Mat 对 象 的 引用 ,分 配 的 内 存 就 会 被 自动 释放 。 这 一 点 非常 方便 ， 因 为 
它 避 免 了 C++ 动态 内 存 分 配 中 经 常 发 生 的 内 存 泄 漏 问题 。 这 是 OpenCV 2 中 一 个 关键 的 机 制 , 它 的 
实现 方法 是 通过 cv: :Mat 实 现 计 数 引 用 和 浅 复 制 。 因 此 , 当 在 两 个 图 像 之 间 赋 值 时 , 图 像 数据 ( 即 
































像素 ) 并 不 会 被 复制 ， 此 时 两 个 图 像 都 指向 同一 个 内 存 块 。 这 同样 适用 于 图 





像 间 的 值 传递 或 值 返 





回 。 由 于 维护 了 一 个 引用 计数 器 ， 因 此 只 有 当 图 像 的 所 有 引用 都 将 释放 或 赋值 给 另 一 个 图 像 时 ， 





内 存 才 会 被 释放 ; 


// 所 有 图 像 都 指向 同一 个 数据 块 
cv::Mat image4 (image3); 
imagel= image3; 


上 面 的 图 像 中 , 对 其 中 的 任何 一 个 做 转换 都 会 影响 到 其 他 图 像 。 如 果 要 
复制 ,你 可 以 使 用 copyTo 方 法 ,在 此 情况 下 目标 图 像 会 调用 create 方 法 。 
的 方法 是 clone， 即 创建 一 个 完全 相同 的 新 图 像 : 

// 这 些 图 像 是 原始 图 像 的 新 副本 


image3 .copyTo (image2); 
cv::Mat image5= image3.clone(); 














对 图 像 内 容 做 一 个 深 
男 一 个 生成 图 像 副 本 
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如 果 你 需要 把 一 个 图 像 复 制 到 男 一 个 图 像 中 ， 而 两 者 的 数据 类 型 不 一 定 相同 ， 那 就 要 使 用 


convertTo 方 法 : 








// 转换 成 浮 点 型 图 像 [0,1] 
imagel .convertTo (image2,CV_32F,1/255.0,0.0); 


本 例 中 ,原始 图 像 被 复制 进 了 一 个 浮 点 型 图 像 。 这 一 方法 包含 两 个 可 选 参 数 : 缩放 比例 和 偏 
移 量 。 需 要 注意 的 是 ， 这 两 个 图 像 的 通道 数量 必须 相同 。 
cv: :Mat 对 象 的 分 配 模型 还 能 让 程序 员 安 全 地 编写 返回 一 个 图 像 的 函数 ( 或 类 方法 ): 




















cv::Mat function() { 
// 创建 图 像 
cv::Mat ima(240,320,CV_8U,cv::Scalar(100)); 
// 返回 图 像 





return ima; 


} 
我 们 还 可 以 从 main 函 数 中 调用 这 个 函数 : 


// 得 到 一 个 灰 度 图 像 


cv::Mat gray= function(); 

运行 这 条 语句 后 ,我们 就 可 以 用 变量 gray 操 作 这 个 由 function 函 数 创建 的 图 像 ， 而 不 需要 
额外 分 配 内 存 。 正 如 前 面 解释 的 ， 从 cv: :Mat 实 例 到 图 像 gray， 实 际 上 只 是 进行 了 一 次 浅 复制 。 
当局 部 变量 ima 超 出 作用 范围 后 ，ima 会 被 释放 ， 但 是 从 相关 引用 计数 器 可 以 看 出 ， 有 另 一 个 实 
例 ( 即 变 量 gray ) 引用 了 ima 内 部 的 图 像 数 据 ， 因 此 ima 的 内 存 块 不 会 被 释放 。 

注意 , 在 使 用 类 的 时 候 要 特别 小 心 , 不 要 回 送 图 像 的 类 属性 。 下 面 的 实现 方法 很 容易 引发 错误 : 



























































class Test { 
// 图 像 属 性 
cv::Mat ima; 
public: 
// 在 构造 函数 中 创建 一 个 灰 度 图 像 
Test() : ima(240,320,CV_8U,cv::Scalar(100)) {} 








// 用 这 种 方法 回 送 一 个 类 属性 ， 这 是 一 种 不 好 的 做 法 

cv::Mat method() { return ima; } 
入 
这 里 ， 如 果 某 个 函数 调用 了 这 个 类 的 methoda， 就 会 对 图 像 属性 进行 一 次 浅 复制 。 一 旦 副本 
稍 后 被 修改 了 , class 属 性 也 会 被 “偷偷 地 ”修改 , 这 会 影响 这 个 类 的 后 续 行 为 ( 反 过 来 也 一 样 )。 
为 了 避免 这 种 类 型 的 错误 ， 你 需要 将 其 改 成 回 送 属性 的 一 个 副本 。 





























1.4.3 扩展 阅读 
OpenCV 中 还 有 几 个 与 cv: :Mat 相 关 的 类 ， 熟 练 掌握 这 些 类 也 很 重要 。 


1.4 深入 了 解 cv::Mat 17 





1. 输入 和 输出 数组 


在 OpenCyV 的 文档 中 ， 有 很 多 方法 和 函数 使 用 cv: :Inputarray 类 型 作为 输入 参数 。 
cv: :InputArray 类 型 是 一 个 简单 的 代理 类 ， 用 来 概括 OpenCV 中 数组 的 概念 ， 避 免 同 一 个 方法 
或 函数 因为 使 用 了 不 同类 型 的 输入 参数 而 出 现 多 个 不 同 的 版 本 。 也 就 是 说 , 你 可 以 在 参数 中 使 用 
cv: :Mat 对 象 或 者 其 他 的 兼容 类 型 。cv: :InputaArray 只 是 一 个 接口 , 因此 你 不 能 在 代码 中 显 式 
地 定义 它 。 比 较 有 趣 的 是 ，cv: : Inputarray 也 能 使 用 常见 的 std: :vector 类 来 构造 ， 这 意味 
着 std: :vector 的 对 象 可 作为 内 容 对 象 输入 OpenCV 的 算法 和 函数 ( 只 要 这 么 做 是 有 意义 的 )。 
其 他 兼容 的 类 型 有 ev::Scalar 和 ev::Vece， 其 中 cv::Vec 将 在 下 一 章 介 绍 。 此 外 还 有 一 个 代理 类 
cv::OutputArray， 用 来 指定 某 些 方法 或 函数 的 返回 数组 。 


2. 老式 的 Ip1Image 结 构 


在 OpenCV 第 2 版 中 引入 了 一 个 新 的 C++ 接口 。 早 期 版 本 使 用 C 语 言 风格 的 函数 和 结构 (现在 
仍 能 使 用 )。 特 别 是 用 IplImage 结 构 来 操作 图 像 ， 该 结构 是 从 IPL 库 继承 的 ( 即 Intel Image 
Processing 库 )， 现 在 已 经 与 IPP 库 ( 即 Intel Integrated Performance Primitive 库 ) 合并 。 如 果 使 用 老 
式 的 C 语 言 接口 创建 的 代码 和 库 ， 你 就 需要 操作 这 些 IpIImage 结 构 。 幸 运 的 是 ， 把 ITpLImage 结 
构 转 换 成 cv: :Mat 对 象 非常 容易 ， 如 下 面 的 代码 所 示 : 






































































































































IplImage* iplImage = cvVLoadImage ("puppy .bmp"); 
cv::Mat image (iplImage, false); 


cvLoadImage 是 用 C 语 言 接口 装载 图 像 的 函数 。cv: :Mat 对 象 的 构造 函数 中 ,第 二 个 参数 表 
示 不 复制 数据 ( 如 需要 复制 ， 可 把 它 设 为 crue; 默认 值 是 false， 因 此 可 以 省 略 )， 这 意味 着 
IplImage 和 ;image 会 共用 同一 块 图 像 数 据 。 这 里 你 需要 特别 小 心 ， 以 避免 产生 悬挂 指针 ， 因 此 
更 安全 的 做 法 是 把 Ip1Image 指 针 封 装 进 OpenCV 2 的 引用 计数 指针 类 中 : 



































cv::Ptr<IplImage> iplImage = cvLoadImage ("puppy .bmp"); 
否则 ， 当 释放 IplImage 结 构 指 向 的 内 存 时 需要 显 式 执行 : 
cvReleaseImage (&iplImage); 


记 住 ， 请 不 要 使 用 这 个 过 时 的 数据 结构 ， 要 改 用 cv : :Mat 数 据 结 构 。 


1.4.4 ”参阅 


口 要 查看 完整 的 OpenCV 文 档 ， 请 访问 http://docs.opencv.org/。 
口 第 2 章 将 介绍 如 何 高 效 地 访问 和 修改 cv : :Mat 表 示 的 图 像 的 像素 值 。 
口 1.5 节 将 解释 如 何 定义 图 像 内 的 兴趣 区 域 。 
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1.5 定义 兴趣 区 域 


有 时 我 们 需要 让 一 个 处 理 函数 只 在 图 像 的 某 个 部 分 起 作用 。OpenCV 内 嵌 了 一 个 精致 又 简洁 
的 机 制 , 可 以 定义 图 像 的 子 区 域 ， 并 把 这 个 子 区 域 当 作 普 通 图 像 进行 操作 。 本 节 介 绍 如 何 定义 图 
像 内 部 的 兴趣 区 域 。 


1.5.1 准备 工作 
假设 我 们 要 把 一 个 小 图 像 复 制 到 一 个 大 图 像 上 ,例如 , 我们 要 把 下 面 的 小 标志 插入 到 测试 图 像 中 。 


> 


为 了 实现 这 个 功能 ， 我 们 可 以 定义 一 个 兴趣 区 域 ( Region Of Interest，ROI )， 在 它 上 面 进行 
复制 操作 ， 这 个 ROI 的 位 置 将 决定 标志 的 插入 位 置 。 








1.5.2 ”如 何 实现 


第 一 步 是 定义 ROI。 定 义 后 ， 我 们 可 以 把 ROI 当 作 一 个 普通 的 cv: :Mat 实 例 进行 操作 。 关 键 
在 于 ，ROI 实 际 上 就 是 一 个 cv: :Mat 对 象 ， 它 与 它 的 父 图 像 指 向 同一 个 数据 缓冲 区 ， 并 且 有 一 个 
头 部 信息 表示 ROI 的 坐标 。 接 着 我 们 可 以 用 下 面 的 方法 插入 小 标志 : 


// 在 图 像 的 右 下 角 定义 一 个 ROI 
cv::Mat imageROI (image, 
cv::Rect (image.cols-logo.cols，// ROI 坐 标 
image.rows-logo.rows, 
logo.cols,logo.rows));// ROI 大 小 




















// 插入 标志 

logo.copyTo (imageROI); 

这 里 的 jmage 是 目标 图 像 ，1ogo 是 标志 图 像 (相对 较 小 )。 运 行 上 述 代 码 后 ， 你 将 得 到 下 面 
的 图 像 : 
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1.5.3 ”实现 原理 


定义 ROI 的 一 个 方法 是 使 用 cv: :Rect 实 例 。 正 如 名 称 所 示 ， 它 描述 了 一 个 矩形 区 域 ， 方 法 
是 指明 左上 角 的 位 置 ( 构造 函数 的 前 两 个 参数 ) 和 和 矩形 的 尺寸 (后 两 个 参数 表示 宽度 和 高 度 )。 
这 个 例子 中 , 我 们 利用 图 像 和 标志 的 尺 二 来 确定 标志 的 位 置 , 即 图 像 的 右 下 角 。 很 明显 , 整个 ROI 
肯定 处 于 父 图 像 的 内 部 。 


ROI 还 可 以 用 行 和 列 的 值 域 来 描述 。 值 域 是 一 个 从 开始 索引 到 结束 索引 的 连续 序列 ( 不 含 开 
始 值 和 结束 值 )， 我 们 可 以 用 cv: :Range 结 构 来 表示 这 个 概念 。 因 此 ， 一 个 ROI 可 以 用 两 个 值 域 
来 定义 。 在 本 例 中 ，ROI 同 样 可 以 定义 如 下 : 




















imageROI= image (cv::Range(image.rows-logo.rows,image.rows), 
cv::Range (image.cols-logo.cols,image.cols)); 


这 里 ，cv: :Mat 的 operator () 函数 返回 另 一 个 cv: :Mat 实 例 ， 可 在 后 面 使 用 。 由 于 图 像 和 
ROI 共 享 了 同一 块 图 像 数 据 , 因此 ROI 的 任何 转变 都 会 影响 原始 图 像 的 相关 区 域 。 在 定义 ROI 时 数 
据 并 没有 被 复制 ， 因 此 它 的 执行 时 间 是 固定 的 ， 不 受 ROI 尺 寸 的 影响 。 


要 定义 由 图 像 中 的 一 些 行 组 成 的 ROI， 你 可 用 下 面 的 代码 : 








cv::Mat imageROI= image.rowRange (start,end); 
类 似 地 ， 要 定义 由 图 像 中 一 些 列 组 成 的 ROI， 你 可 用 下 面 的 代码 : 


cv::Mat imageROI= image.colRange (start,end); 


1.5.4 扩展 阅读 


OpenCV 的 方法 和 函数 包含 了 很 多 本 书 并 不 涉及 的 可 选 参数 ， 在 第 一 次 使 用 某 个 函数 时 ， 你 
需要 花 时 间 看 一 下 文档 , 以 查 清 该 函数 支持 哪些 选项 。 一 个 十 分 常见 的 选项 很 可 能 被 用 来 定义 图 


使 用 图 像 掩 码 


OpenCV 中 的 有 些 操作 可 以 用 来 定义 掩 码 。 函 数 或 方法 通常 对 图 像 中 所 有 的 像素 进行 操作 ， 
通过 定义 掩 码 可 以 限制 这 些 函 数 或 方法 的 作用 范围 。 掩 码 是 一 个 8 位 图 像 ， 如 果 掩 码 中 某 个 位 置 
的 值 不 为 0, 在 这 个 位 置 上 的 操作 就 会 起 作用 ; 如 果 掩 码 中 某 些 像素 位 置 的 值 为 0， 那 么 对 图 像 中 
相应 位 置 的 操作 将 不 起 作用 。 例 如 ， 在 调用 copyTo 方 法 时 我 们 就 可 以 使 用 掩 码 。 这 里 ， 我 们 可 
以 利用 掩 码 只 复制 标志 中 白色 的 部 分 ， 如 下 : 

// 在 图 像 的 右 下 角 定 义 一 个 ROI 

imageROI= image (cv::Rect (image.cols-logo.cols, 


image.rows-logo.rows, 
logo.cols,1ogo.rows)); 
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// 把 标志 作为 撼 码 (必须 是 友 度 图 像 ) 


cv::Mat maSsk(1ogo) ; 


// 插入 标志 ， 只 复制 掩 码 不 为 0 的 位 置 
logo.copyTo (imageROI,mask); 


执行 这 段 代 码 后 你 将 得 到 下 面 这 个 图 像 : 





[下 Image = 














标志 的 背景 是 黑色 的 〈 因此 值 为 0)， 所 以 我 们 很 容易 把 它 作为 被 复制 图 像 和 掩 码 。 当 然 , 我 
们 可 以 在 程序 中 自己 决定 如 何 定义 掩 码 。OpenCV 中 大 多 数 基于 像素 的 操作 都 可 以 使 用 掩 码 。 


1.5.5 ”参阅 


口 2.6 节 将 用 到 row 和 和 col 方法。 它们 是 rowRange 和 colRange 方 法 的 特例 ， 即 开始 和 结束 的 
索引 是 相同 的 ， 以 定义 一 个 单行 或 单列 的 ROI。 


操作 像素 








本 章 包 括 以 下 内 容 : 


口 访问 像素 值 ; 

口 用 指针 扫描 图 像 ; 

口 用 过 代 器 扫描 图 像 ; 

口 编写 高 效 的 图 像 扫 描 循 环 ; 
口 扫描 图 像 并 访问 相 邻 像素 ; 
口 实现 简单 的 图 像 运算 ; 

口 图 像 重 映射 。 








2.1 简介 





为 了 构建 计算 机 视觉 应 用 程序 , 我们 需要 学 会 访问 图 像 内 容 ， 有 时 也 要 修改 或 创建 图 像 。 本 
章 讲 解 如 何 操 作 图 像 的 元 素 ( 即 像 素 )， 你 将 学 会 如 何 扫 描 一 个 图 像 并 处 理 每 一 个 像素 ， 还 将 学 
会 如 何 高 效 地 进行 处 理 ， 因 为 即使 是 中 等 大 小 的 图 像 ， 也 能 包含 数 十 万 个 像素 。 





图 像 本 质 上 就 是 一 个 由 数值 组 成 的 矩阵 。 正 


因为 如 此 ，OpenCYV 2 使 用 了 cv: :Mat 结 构 来 操 





作 图 像 ， 这 在 第 1 章 已 经 讲 过 。 矩阵 中 的 每 个 元 素 表示 一 个 像素 。 对 于 灰 度 图 像 ( 黑白 图 像 ), 像 
素 是 8 位 无 符号 数 ，0 表 示 黑 色 ，255 表 示 白 色 。 对 于 彩色 图 像 ， 需 要 用 三 原色 数据 来 重 现 不 同 的 
可 见 色 , 这 是 因为 我 们 人 类 的 视觉 系统 是 三 原色 的 , 视 网 腊 上 有 三 种 类 型 的 视 锥 细胞 ,它们 将 颜 



























































色 信 息 传递 给 大 脑 。 这 意味 着 对 于 彩色 图 像 ， 每 个 像素 都 要 对 应 三 个 数值 。 在 摄影 和 数字 成 像 技 
术 中 ， 常 用 的 主 颜 色 通道 是 红色 、 绿 色 和 蓝 色 ， 因 此 每 3 个 8 位 数值 组 成 矩阵 的 一 个 元 素 。 


注意 ，8 位 通道 通常 是 够 用 的 ,但 有 些 特 殊 的 应 用 程序 需要 用 16 位 通道 ( 例如 医学 图 像 )。 


在 第 1 章 我 们 看 到 ，OpenCV 中 也 可 以 用 其 他 类 型 的 像素 值 来 创建 算 阵 (或 图 像 )， 例 如 整 型 
( cvV_32U 或 cv_32s ) 和 浮 点 数 (cvV_32F )。 这 些 类 型 非常 有 用 ,例如 可 存储 图 像 处 理 过 程 中 的 


























中 间 结 果 。 大 部 分 操作 可 以 使 用 任何 类 型 的 矩阵 ， 





还 有 一 些 操作 必须 使 用 特定 的 类 型 或 特定 的 通 


道 数量 。 因 此 ， 为 了 避免 常见 的 编程 错误 ， 必 须 充分 理解 函数 或 方法 的 先决 条 件 。 
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本 章 ， 我 们 将 一 直 使 用 下 面 的 彩色 图 像 ( 男 见 彩 图 1 ) 作为 输入 对 象 : 














2.2 访问 像素 值 


要 访问 矩阵 中 的 每 个 独立 元 素 , 你 只 需要 指定 它 的 行 号 和 列 号 。 返 回 的 对 应 元 素 可 以 是 单个 
数值 ， 也 可 以 是 多 通道 图 像 的 数值 向 量 。 











2.2.1 准备 工作 


为 了 说 明 如 何 直 接 访 问 像素 值 ， 我 们 创建 一 个 简单 的 函数 ， 用 它 在 图 像 中 加 入 椒盐 品 声 
( salt-and-pepper noise )。 顾 名 思 义 ， 椒 盐 噪 声 是 一 个 专门 的 噪声 类 型 ， 它 随机 选择 一 些 像 素 ， 把 
它们 的 颜色 替换 成 白色 或 黑色 。 如 果 通 信 时 出 错 ， 部 分 像素 的 值 在 传输 时 丢失 ， 就 会 发 生 这 种 品 
声 。 这 里 我 们 只 是 随机 地 选择 一 些 像素 ， 把 它们 设置 为 白色 。 

















2.2.2 ”如 何 实现 


创建 一 个 接受 输入 图 像 的 函数 , 在 函数 中 对 图 像 进行 修改 。 第 二 个 参数 是 需要 改 成 白色 的 像 


void salt(cv::Mat image, int n) { 











Tt os 
for (int k=0; k<n; k++) { 
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// rand() 是 随机 数 生成 器 
i= std::rand()%$image.cols; 
j= std::rand()®%image.rows; 





if (image.type() == CV_8UC1) { // 灰 度 图 像 





image.at<uchar>(j,i)= 255; 





} else if (image.type() == CV_8UC3) { // 彩色 图 像 


image.at<cv: :Vec3b>(j,i)[0]= 255; 
image.at<cv: :Vec3b>(j,i)[1]= 255; 
image.at<cv: :Vec3b>(j,i)[2]= 255; 
} 
} 

} 

这 个 函数 使 用 一 个 简单 的 循环 , 执行 n 次 , 每 次 把 随机 选择 的 像素 设置 为 255。 这 里 用 随机 数 
生成 右 产 生 像 素 的 列 i 和 行 j]。 注 意 ， 这 里 使 用 了 type 方 法 来 区 分 灰 度 图 像 和 彩色 图 像 。 对 于 灰 
度 图 像 ， 把 单个 的 8 位 数值 设置 为 255; 对 于 彩色 图 像 ， 需 要 把 三 个 主 颜色 通道 设置 为 255， 才 能 
得 到 一 个 白色 像素 。 


现在 你 可 以 调用 这 个 函数 ， 并 传人 已 经 打开 的 图 像 。 参 考 下 面 的 代码 : 


// 打开 图 像 


cv::Mat image= cv::imread("boldt.jpg"); 

















// 调用 函数 以 添加 噪声 
salt (image,3000); 
// 显示 图 像 


cv: :namedWindow ("Image"); 
cv::imshow("Image",image); 


结果 图 像 ( 另 见 彩 图 2 ) 如 下 : 
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2.2.3 ”实现 原理 


cv: :Mat 类 包含 有 多 种 方法 ,可 用 来 访问 图 像 的 各 种 属性 : 利用 公共 成 员 变 量 cols 和 rows 
可 得 到 图 像 的 列 数 和 行 数 ; 利用 cv: :Mat 的 at (int y,int x) 方 法 可 以 访问 元 素 。 在 编译 时 必 
须 明 确 方法 返回 值 的 类 型 。 因 为 cv: :Mat 可 以 接受 任何 类 型 的 元 素 ， 所 以 程序 员 需 要 指定 返回 
值 的 预期 类 型 。 正 因为 如 此 ，at 方 法 被 实现 成 一 个 模板 方法 。 在 调用 时 必须 指定 图 像 元 素 的 类 
型 ， 如 : 









































image.at<uchar>(j,i)= 255; 


有 一 点 需要 特别 注意 , 程序 员 必 须 保 证 指定 的 类 型 与 矩阵 内 的 类 型 是 一 致 的 。at 方 法 不 会 进 
行 任 何 类 型 转换 。 


彩色 图 像 的 每 个 像素 对 应 三 个 部 分 : 红色 、 绿 色 和 蓝 色 通 道 。 因 此 包含 彩色 图 像 的 cv: :Mat 
类 会 返回 一 个 向 量 ， 向 量 中 包含 三 个 8 位 的 数值 。OpenCV 为 这 样 的 短 向 量 定 义 了 一 种 类 型 ， 即 
cv::Vec3b。 这 个 向 量 包 含 三 个 无 符号 字符 〈unsigned character ) 类 型 的 数据 。 因 此 ， 访 问 彩色 
像素 中 元 素 的 方法 如 下 : 


image.at<cv: :Vec3b>(j,i) [channel]= value; 


channel 索 引用 来 指明 三 个 颜色 通道 中 的 一 个 。OpenCV 存 储 通道 数据 的 次 序 是 蓝 色 、 绿 色 和 和 红 
色 (因此 蓝 色 是 通道 0 )。 














































































































还 有 类 似 的 向 量 类 型 表示 二 元 素 向 量 和 四 元 素 向 量 (cv: :Vec2b 和 cv: :Vec4b )。 此 外 还 有 
针对 其 他 元 素 类 型 的 向 量 。 例如， 表示 二 元 素 浮 点 数 类 型 的 向 量 , 类 型 名 称 的 最 后 一 个 字母 换 成 
“f”， 即 cv: :Vec2£。 对 于 短 整 型 ， 最 后 的 字母 换 成 s; 对 于 整 型 ， 最 后 的 字母 换 成 i ;对 于 双 精 
度 浮 点 数 类 型 , 最 后 的 字母 换 成 a。 所 有 这 些 类 型 都 用 cv : :Vec<T,N> 模 板 类 定义 , 其 中 T 是 类 型 ， 
N 是 向 量 元 素 的 数量 。 

最 后 一 个 提示 ， 你 也 许 会 觉得 奇怪 ,这些 修改 图 像 的 函数 在 使 用 图 像 作为 参数 时 ,都 采用 了 
值 传递 的 方式 。 之 所 以 这 样 做 ， 是 因为 它们 在 复制 图 像 时 仍 共享 了 同一 块 图 像 数据 。 因 此 在 需要 
修改 图 像 内 容 时 ， 图像 参 数 没 必要 采用 引用 传递 的 方式 。 顺便 说 一 下 ,编译 器 做 代码 优化 时 ,用 
值 传递 参数 的 方法 通常 比较 容易 实现 。 












































2.2.4 扩展 阅读 
cv: :Mat 类 的 定义 采用 了 C++ 模板 ， 因 此 它 的 通用 性 很 强 。 
CVv: :Mat_ 模 板 类 


因为 每 次 调用 都 必须 在 模板 参数 中 指明 返回 类 型 ,所 以 使 用 cv: :Mat 类 的 at 方法 有 时 会 显得 
见长 。 如 果 已 经 知道 矩 阵 的 类 型 , 就 可 以 使 用 cv: :Mat_ 类 ( cv: :Mat 类 的 模板 子 类 ), cv: :Mat_ 
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类 定义 了 一 些 新 的 方法 , 但 没有 定义 新 的 数据 属性 , 因此 这 两 个 类 的 指针 或 引用 可 以 直接 互相 转 
换 。 在 新 方法 中 有 一 个 operator()， 可 用 它 直 接 访 问 矩 阵 的 元 素 。 因 此 可 以 这 样 写 代码 ( 其 中 


image 是 一 个 对 应 uchar 和 矩阵 的 cv: : Mat 变量 ): 























// 用 Mat_ 模 板 操 作 图 像 

cv::Mat_<uchar> im2 (image); 

im2(50,100)= 0; // 访问 第 50 行 、 第 100 列 处 那个 值 

在 创建 cv: :Mat_ 变 量 时 ， 我们 就 定义 了 它 的 元 素 类 型 ， 因 此 在 编译 时 就 已 经 知道 
operator () 的 返回 类 型 。 使 用 操作 符 operator (人 和 使 用 at 方法 产生 的 结 是 完全 相同 的 a 
是 前 者 的 代码 更 简短 。 
























































2.2.5 参阅 


口 2.3.4 节 解释 了 如 何 创建 一 个 带 有 输入 和 输出 参数 的 函数 。 
口 2.5 节 有 关于 该 方法 的 效率 的 讨论 。 





2.3 用 指针 扫描 图 像 


在 大 多 数 图 像 处 理 任务 中 , 执行 计算 时 你 都 需要 对 图 像 的 所 有 像素 进行 扫描 。 需要 访问 的 像 
素数 量 非常 庞大 , 因此 你 必须 采用 高 效 的 方式 来 执行 这 个 任务 。 本 节 和 下 一 节 将 展示 几 种 实现 高 
效 扫描 循环 的 方法 。 本 节 使 用 指针 运算 。 





2.3.1 准备 工作 
为 了 说 明 图 像 扫 描 的 过 程 ， 我 们 来 做 一 个 简单 的 任务 : 减少 图 像 中 颜色 的 数量 。 


彩色 图 像 由 三 通道 像素 组 成 ， 每 个 通道 表示 红 、 绿 、 蓝 三 原色 中 一 种 颜色 的 亮度 值 ， 每 个 数 
值 都 是 8 位 的 无 符号 字符 类 型 ， 因 此 颜色 总 数 为 236 x 256 x 236， 即 超过 1600 万 种 颜色 。 因 此 ， 为 
了 降低 分 析 的 复杂 性 ,有 时 需要 减少 图 像 中 颜色 的 数量 。 一 种 实现 方法 是 把 RGB 空间 细 分 到 大 小 
相等 的 方块 中 。 例 如 ， 如 果 把 每 种 颜色 数量 减少 到 1/8 ， 那 么 颜色 总 数 就 变 为 32 x 32 x 32。 将 旧 
图 像 中 的 每 个 颜色 值 划分 到 一 个 方块 , 该 方块 的 中 间 值 就 是 新 的 颜色 值 ; 新 图 像 使 用 新 的 颜色 值 ， 
颜色 数 就 减少 了 。 


因此 基本 的 减 色 算法 很 简单 。 假 设 N 是 减 色 因 子 ， 将 图 像 中 每 个 像素 的 每 个 通道 的 值 除 以 N 
(使 用 整数 除法 ， 不 保留 余数 )。 然 后 将 结果 乘 以 N， 得 到 的 倍数 ， 并 且 刚 好 不 超过 原始 像素 值 。 
只 需 加 上 N/2, 就 得 到 相 邻 的 N 倍 数 之 间 的 中 间 值 。 对 所 有 8 位 通道 值 重 复 这 个 过 程 , 就 会 得 到 (256 
/N) x (256 /NN) x (256 / NN) 种 可 能 的 颜色 值 。 
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2.3.2 ”如 何 实现 
减 色 函数 的 签名 如 下 : 


void colorReduce(cv::Mat image, int div=64); 


用 户 提 供 一 个 图 像 和 每 个 颜色 通道 的 减 色 因 子 。 这 里 的 处 理 过 程 是 就 地 进行 的 ,也 就 是 说 ， 函 数 
直接 修改 了 输入 图 像 的 像素 值 。2.3.4 节 介绍 了 一 个 更 为 通用 的 签名 ， 用 于 输入 和 输出 参数 。 


处 理 过 程 很 简单 ， 只 要 创建 一 个 二 重 循环 遍历 所 有 像素 值 ， 代 码 如 下 : 






































void colorReduce (cvV: :Mat image, int div=64) { 
int nl= ijmage.rows; // 行 数 
// 每 行 的 元 素数 量 
int nc= image.cols * image.channels(); 


for (int j=0; j<nl; j++) { 


// 取得 行 j 的 地 址 


uchar* data= image.ptr<uchar>(j); 
for (int i=0; i<nc; i++) { 
// 处 理 每 个 像素 --------------------- 
datal[i]= data[li]/div*div + div/2; 
// 像素 处 理 结束 ---------------- 
) // 一 行 结 
} 
可 以 用 下 面 的 代码 片段 测试 这 个 函数 : 


// 读 取 图 像 

image= cv::imread("boldt.jpg"); 
// 处 理 图 像 

colorReduce (image, 64); 

// 显示 图 像 





cv: :namedWindow ("Image"); 
cv::imshow("Image", image); 


执行 后 得 到 下 面 的 图 像 ( 男 见 彩 图 3 ): 
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2.3.3 ”实现 原理 


在 彩色 图 像 中 ,图 像 数 据 缓冲 区 的 前 3 字 节 表示 左上 角 像 素 的 三 色 通 道 ， 接 下 来 的 3 字 节 表 
示 第 1 行 的 第 2 个 像素 ， 依 次 类 推 ( 注意 OpenCV 上 默认 的 通道 次 序 为 BGR )。 一 个 宽 w 高 H 的 图 像 
所 需 的 内 存 块 大 小 为 W x H x 3 uchars。 然 而 出 于 性 能 上 的 考虑 ， 我 们 会 用 几 个 额外 的 像素 
来 填补 行 的 长 度 。 这 是 因为 有 些 多 媒体 处 理 芯片 《如 Intel MMX 体系 ) 处 理 图 片 时 ， 如 果 行 的 
长 度 是 4 或 8 的 整数 倍 ， 处 理 的 性 能 就 会 更 高 。 当 然 ， 这 些 额 外 的 像素 不 显示 也 不 保存 ， 它 们 的 
额外 数据 会 被 忽略 。OpenCV 把 经 过 填充 的 行 的 长 度 指 定 为 有 效 宽度 。 如 果 图 像 没 有 用 额外 的 
像素 填充 ， 那么 有 效 宽 度 就 等 于 实际 的 图 像 宽度 。 我 们 已 经 学 过 ， 用 cols 和 rows 属 性 可 得 到 
图 像 的 宽度 和 高 度 。 类似 地 ,用 step 数 据 属性 可 得 到 单位 是 字 节 的 有 效 宽度 。 即 使 图 像 的 类 型 
不 是 uchar，step 仍 然 能 提供 行 的 字 节 数 。 我 们 可 以 通过 elemsize 方 法 (例如 一 个 三 通道 短 
整 型 的 矩阵 cv_16Ssc3 ，elemsize 会 返回 6 ) 获得 像素 的 大 小 ,通过 nchannels 方 法 ( 灰 度 图 
像 为 1， 彩 色 图 像 为 3 ) 获得 图 像 中 通道 的 数量 ， 最 后 ， 用 total 方 法 返回 和 抢 阵 中 的 像素 〈 即 矩 
阵 的 条 目 ) 总 数 。 


用 下 面 的 代码 可 获得 每 一 行 中 像素 值 的 个 数 : 
int nc= image.cols * image.channels () ; 


为 了 简化 指针 运算 的 计算 过 程 ，cv: :Mat 类 提供 了 一 个 方法 , 可 以 直接 访问 图 像 中 一 个 行 的 
地 址 。 这 就 是 ptz 方 法 ， 它 是 一 个 模板 方法 ， 返 回 第 j 行 的 地 址 : 




























































































uchar* data= image.ptr<uchar>(j); 


注意 在 处 理 语句 中 ,我 们 也 可 以 采用 另 一 种 等 价 的 做 法 , 即 利 用 指针 运算 从 一 列 移 到 下 一 列 。 
因此 可 以 使 用 下 面 的 代码 : 


*data= *data/div*div + div2; datat+t; 
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2.3.4 扩展 阅读 

前 面 介 绍 的 减 色 函 数 只 是 完成 任务 的 一 种 方法 ,此 外 也 可 以 采用 其 他 减 色 算法 。 要 使 丽 数 更 
加 通用 ,就 要 允许 指定 不 同 的 输入 和 输出 图 像 。 如 果 考 虑 到 图 像 数 据 的 连续 性 ,扫描 的 速度 还 可 
以 提高 。 最 后 ， 也 可 以 使 用 低层 次 指针 运算 来 扫描 图 像 缓 冲 区 。 下 面 分 别 讨论 这 几 点 。 

1. 其 他 减 色 算 法 

前 面 的 例子 中 , 减 色 功能 的 实现 是 利用 了 整数 除法 的 特性 , 即 取 不 超过 又 最 接近 结果 的 整数 ， 
代码 如 下 : 

data[i]= (data[i]/div)*div + div/2; 

减 色 计算 也 可 以 使 用 取 模 运算 符 ， 它 得 到 最 接近 的 daiv( 每 个 通道 的 减 色 因子 ) 倍数 ， 代 码 
如 下 : 

data[i]= data[i] - datal[i]j%div + div/2; 

另外 还 可 以 使 用 位 运算 符 。 如 果 把 减 色 因子 限定 为 2 的 指数 ， 即 aiv=pow(2,n) ， 那 么 把 像 
素 值 的 前 面 n 位 掩 码 后 就 得 到 最 接近 的 giv 的 倍数 。 可 以 用 简单 的 位 移 操 作 获 得 掩 码 ， 代 码 如 下 : 


// 用 来 礁 取 像素 值 的 掩 码 
uchar mask= 0xFF<<n; // 例如 : 如 Qiv=16， 则 mask=0xF0 



















































































可 用 下 面 的 代码 实现 减 色 运算 : 


*data &= mask; // 掩 码 
*data++ += div>>1; // 加 上 div/2 




















一 般 来 说 , 使 用 位 运算 的 代码 运行 效率 很 高 , 因此 在 强调 高 效率 的 运行 时 , 位 运算 是 不 二 之 选 。 
2. 使 用 输入 和 输出 参数 


在 前 面 的 减 色 函 数 中 ,直接 在 输入 图 像 中 进行 了 转换 ,这 称 为 就 地 转换 。 这 种 做 法 不 需要 和 额 
外 的 图 像 来 输出 结果 ， 可 以 减少 内 存 的 使 用 。 但 是 有 的 程序 不 希望 对 原始 图 像 进 行 修改 , 这 时 就 
必须 在 调用 函数 前 备份 图 像 。 注 意 ， 对 图 像 进 行 深 复制 的 最 简单 方法 是 使 用 clone 方 法 。 如 下 面 
的 代码 : 


// 读 入 图 像 

image= cv::imread("boldt.jpg"); 

// 复制 图 像 

cv::Mat imageClone= image.clone(); 

// 处 理 图 像 副本 

// 原始 图 像 保持 不 变 

colorReduce (imageClone); 

// 显示 结果 图 像 

cv: :namedWindow("Image Result"); 
cv::imshow("Image Result",imageClone); 
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如 果 在 定义 函数 时 允许 用 户 选 择 是 否 要 采用 就 地 处 理 , 就 可 以 避免 这 些 额 外 的 过 程 。 方 法 的 
签名 为 : 
void colorRedquce (const cv::Mat &image，// 输入 图 像 
cv::Mat &result， // 输出 图 像 
int div=64); 
注意 输入 图 像 是 一 个 引用 的 const ， 表 示 这 个 图 像 不 会 在 函数 中 修改 。 输 出 图 像 是 一 个 引用 
参数 , 在 函数 中 会 被 修改 ,并 且 返 回 给 调用 这 个 函数 的 代码 。 如 果 需 要 就 地 处 理 ， 可 以 在 输入 和 
输出 参数 中 用 同一 个 image 变 量 : 


























colorReduce (image, image) ; 
否则 就 可 以 提供 一 个 cv: :Mat 实 例 ， 例 如 : 


CV: :Mat result; 
colorReduce (image, result); 


这 里 的 关键 是 首先 要 检查 输出 图 像 , 验证 它 是 否 分 配 了 一 定 大 小 的 数据 缓冲 区 ,以 及 像素 类 
型 与 输入 图 像 是 否 相 符 。cv: :Mat 的 create 方 法 中 已 经 包含 了 这 个 检查 过 程 。 当 你 用 新 的 大 小 
和 像素 类 型 重新 分 配 矩 阵 时 ， 就 要 调用 create 方 法 。 如 果 和 矩 阵 已 有 的 大 小 和 类 型 刚好 与 指定 的 
大 小 和 类 型 相同 ， 这 个 方法 就 不 会 执行 任何 操作 ， 也 不 会 修改 实例 ， 而 只 是 直接 返回 。 


因此 ， 荫 数 中 首先 要 调用 create 方 法 ,构建 一 个 大 小 和 类 型 都 与 输入 图 像 相同 的 矩阵 ( 如 
果 必 要 ): 





















































result.create(image.rows,image.cols,image.type()); 


分 配 的 内 存 块 的 大 小 表示 为 Lotal () *elemsize()。 循环 过 程 中 使 用 两 个 指针 : 





for (int j=0; j<nl; j++) { 
// 获得 第 j 行 的 输入 和 输出 的 地 址 
const uchar* data_ in= image.ptr<uchar>(j); 
uchar* data_out= result.ptr<uchar>(j); 
for (int i=0; i<nc*nchannels; i++) { 
// 处 理 每 个 像素 --------------------- 
data_out[i]= data_in[i]j/div*div + div/2; 


// 像素 处 理 结束 ---------------- 


} // 一 行 结束 
} 


如 果 输 入 和 输出 参数 用 了 同一 个 图 像 , 这 个 函数 就 与 本 节 中 前 面 的 版 本 完全 等 效 。 如 果 输 出 
用 了 另 一 个 图 像 ， 不 管 在 调用 函数 前 是 否 已 经 分 配 了 这 个 图 像 ， 函 数 都 会 正常 运行 。 
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3. 对 连续 图 像 的 高 效 扫描 

前 面 我 们 解释 过 ， 为 了 提高 性 能 ， 会 在 图 像 的 每 行 末 尾 用 额外 的 像素 进行 填充 。 有 趣 的 是 ， 
图 像 在 去 掉 填 充 后 ， 仍 可 看 作 一 个 包含 wxH 像 素 的 长 的 一 维 数组 。 用 cv: :Mat 的 isContinuous 
方法 可 方便 地 判断 出 图 像 有 没有 被 填充 。 如 果 图 像 中 没有 填充 像素 ， 它 就 返回 true。 我 们 还 能 
这 样 测试 矩阵 的 连续 性 : 


// 检查 行 的 长 度 ( 字 节 数 ) 与 “ 列 的 个 数 x 单个 像素 ”的 字 节 数 是 否 相等 
image.step == image.cols*image.elemSize(); 


在 完整 的 测试 中 ,还 需要 检查 矩阵 是 否 只 有 一 行 。 如 果 是 ,我 们 就 说 矩阵 是 连续 的 ,然而 总 
要 用 iscontinuous 方 法 测试 连续 性 条 件 。 在 一 些 特殊 的 处 理 算法 中 ， 可 以 充分 利用 图 像 的 连续 
性 ， 在 单个 (更 长 ) 的 循环 中 人 处理 图 像 。 处 理 函 数 就 可 以 改 为 : 


























































































































voidq colorReduce(cv::Mat &image, int div=64) { 


int nl= image.rows; // 行 数 
int nc= image.cols * image.channels(); 


if (image.isContinuous()) 
{ 

// 没有 填充 的 像素 

人 让 二 所 本 位 二: 

nl= 1; // 它 现在 成 了 一 个 长 的 一 维 数组 
} 


// 对 于 连续 图 像 ， 这 个 循环 只 执行 一 次 
for (int j=0; j<nl; j++) { 


uchar* data= image.ptr<uchar>(j); 
for "(Lint Le0r Lency Lk+) 
// 处 理 每 个 像素 --------------------- 
data[li]= data[lil]/div*div + div/2; 
// 处 理 像素 完毕 ---------------- 
} // 一 行 结 
} 


如 果 连 续 性 测试 结果 表明 图 像 中 没有 填充 像素 ,我 们 就 把 宽度 设 为 1， 高 度 设 为 Wx 太 ， 从 而 
去 除外 层 的 循环 。 注 意 ， 这 里 还 需要 用 reshape 方 法 。 本 例 中 需要 这 样 写 : 








if (image.isContinuous()) 
{ 
// 没有 填充 像素 
image.reshape(1, // 新 的 通道 数 
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1); // 新 的 行 数 
} 


int nl= image.rows; // 行 数 
int nc= image.cols * image.channels (); 


用 reahape 方 法 修改 逢 阵 的 维 数 ,你 不 需要 复制 内 存 或 重新 分 配 内 存 . 第 一个 参数 是 新 的 通 。C 有 8 
道 数 ， 第 二 个 参数 是 新 的 行 数 。 列 数 会 进行 相应 的 修改 。 


在 这 些 实现 方式 中 ,内 层 循环 按 顺 序 处 理 图 像 中 的 所 有 像素 。 在 同一 个 循环 中 同时 扫描 多 个 
小 图 像 时 ， 采 用 这 种 方法 很 有 好 处 。 

4. 低层 次 指针 算法 

在 cv: :Mat 类 中 ， 图 像 数据 是 存放 在 无 符号 字符 型 的 内 存 块 中 的 。 其 中 data 属 性 表示 内 存 
块 的 第 一 个 元 素 的 地 址 ， 它 会 返回 一 个 无 符号 字符 型 的 指针 。 要 从 图 像 的 起 点 开始 循环 ， 你 可 以 
用 如 下 代码 : 



































uchar *data= image.data; 


利用 有 效 宽度 来 移动 行 指针 ， 可 以 从 一 行 移 到 下 一 行 。 代 码 如 下 : 





data+= image.step; // 下 一 行 


用 step 方 法 可 得 到 一 行 的 总 字 节 数 ( 包括 填充 像素 )。 通常 可 以 用 下 面 的 方法 ,得 到 第 j 行 、 
第 i 列 的 像素 的 地 址 : 


// (j,i) 像 素 的 地 址 ， 即 &image.at (j,i) 
data= image.data+j*image.step+i*image.elemSize(); 


然而 ， 尽 管 这 种 处 理 方法 在 上 述 例子 中 能 起 作用 ， 但 是 我 们 并 不 推荐 采用 。 























2.3.5 ”参阅 
口 2.5 节 讨论 各 种 扫描 方法 的 效率 。 


2.4 用 和 迭代 器 扫描 图 像 


在 面向 对 象 编程 时 ,我 们 通常 用 迭代 器 对 数据 集合 进行 循环 遍历 。 和 迭代 器 是 一 种 类 ,专门 用 
于 遍历 集合 的 每 个 元 素 , 隐藏 了 人 遍历 过 程 的 具体 细节 。 信息 隐藏 原则 的 应 用 , 使 扫描 集合 的 过 程 
变 得 更 加 容易 和 安全 。 并 且 不 管 使 用 哪 种 类 型 的 集合 , 它 都 能 提供 类 似 的 形式 。 标 准 模板 库 ( STL ) 
对 每 个 集合 类 都 定义 了 对 应 的 迭代 带 类 , OpenCV 也 提供 了 cv: :Mat 的 迭代 带 类 , 并 且 与 C++ STL 
中 的 标准 迭代 器 兼容 。 
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2.4.1 准备 工作 
本 节 中 我 们 仍 使 用 2.3 节 的 减 色 程序 作为 例子 。 


2.4.2 ”如 何 实现 


要 得 到 cv: :Mat 实 例 的 迭代 器 ， 首先 要 创建 一 个 cv: :MatIterator_ 对象 。 跟 cv: :Mat 类 
似 ,这 个 下 划 线 表示 它 是 一 个 模板 子 类 。 因 为 图 像 迭 代 器 是 用 来 访问 图 像 元 素 的 ， 所 以 必须 在 编 

















译 时 就 明确 返回 值 的 类 型 。 可 以 这 样 定义 迭代 器 .: 
cv: :MatIterator_<cv::Vec3b> it; 


此 外 还 可 以 使 用 在 Mat_ 模 板 类 内 部 定义 的 iterator 类 型 : 








“有 


CVv::Mat_<cv: :Vec3b>::iterator it; 





然后 就 可 以 使 用 常规 的 迭代 器 方法 begin 和 end 对 像素 进行 循环 议 历 了 。 不 同 之 处 在 于 它们 





仍然 是 模板 方法 。 现 在 ， 减 色 函 数 可 以 这 样 编写 : 
void colorRedquce (cv: :Mat &image, int div=64) { 


// 在 初始 位 置 获得 迭代 器 

Cv: :Mat_<cVv: :Vec3b>::iterator it= 
image.begin<cv: :Vec3b>(); 

// 获得 结束 位 置 

Cv::Mat_<cv::Vec3b>::iterator itend= 
image.end<cv: :Vec3b>(); 


// 循环 遍历 所 有 像素 


for ( ; it!= itend; ++it) { 
// 处 理 每 个 像素 --------------------- 
(*it) [0] /div*div + div/2; 


(*it) [1]= (*it) [1]/div*div + div/2; 
= (*it)[2]/Ydiv*div’ + ‘div/2; 


} 





注意 这 里 处 理 的 是 一 个 彩色 图 像 ， 因 此 和 迭代 器 返回 cv: :Vec3b 实 例 。 你 可 以 月 


[访问 每 个 颜色 通道 的 元 素 。 


2.4.3 ”实现 原理 
不 管 扫描 的 是 哪 种 类 型 的 集合 ， 使 用 和 迭代 器 时 总 是 遵循 同样 的 模式 。 

















日 取 值 运算 符 
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首先 你 要 使 用 合适 的 专用 类 创建 迭代 器 对 象 ， 在 本 例 中 是 cv: :Mat_<cv::Vec3b>:: 


iterator (或 cv: :MatIterator_<cv::Vec3b>) 


然后 可 以 用 begin 方 法 , 在 开始 位 置 (本 例 中 为 图 像 的 左上 角 ) 初 始 化 迭代 器 。 对 于 cv: :Mat 
实例 ， 可 以 使 用 image .begin<cv: :Vec3b>()。 还 可 以 在 近代 器 上 使 用 数学 计算 ,例如 车 要 从 
图 像 的 第 二 行 开始 ， 可 以 用 image.begin<cv::vec3pb>()+image.cols 初 始 化 cv: :Mat 人 迭代 
器 。 获 得 集合 结束 位 置 的 方法 也 类 似 ， 只 是 改 用 eno 方 法 。 但 是 ， 用 eng 方 法 得 到 的 迭代 器 已 经 
超出 了 集合 范围 ， 因 此 必须 在 结束 位 置 停止 迭代 过 程 。 结 束 的 迭代 带 也 能 使 用 数学 计算 ,例如 ， 
如 果 你 想 在 最 后 一 行 前 就 结束 迭代 ， 可 使 用 image .end<cv::Vec3b>()-image.cols。 


初始 化 迭代 顺 后 ， 建 立 一 个 循环 遍历 所 有 元 素 ， 直 到 与 结束 迭代 器 相等 。 典 型 的 whi le 循环 
就 像 这 样 : 


while (it!= itendq) { 






























































// 处 理 每 个 像素 --------------------- 


// 像素 处 理 结束 --------------------- 


++i 七 》 


} 

你 可 以 用 运算 符 ++ 来 移动 到 下 一 个 元 素 ， 也 可 以 指定 更 大 的 步 幅 。 例 如 用 it+=10， 对 每 10 
个 像素 处 理 一 次 。 

最 后 ， 在 循环 内 部 使 用 取 值 运算 符 * 来 访问 当前 元 素 ， 你 可 以 用 它 来 读 (例如 element= 
*it; ) 或 写 (例如 *it= element; )。 你 也 可 以 创建 常量 迭代 器 ， 用 作对 常量 cv: :Mat 的 引用 ， 
或 者 表示 当前 循环 不 修改 cv: :Mat 实 例 。 常 量 迭 代 器 的 定义 如 下 : 

cV: :MatConstILerator_ <cV::Vec3b> it; 


或 者 : 











Cv::Mat_<cv::Vec3b>::const_iterator it; 


2.4.4 扩展 阅读 


本 节 中 , 用 begin 和 end 模 板 方 法 可 获得 迭代 器 的 开始 和 结束 位 置 。2.2 节 讲 过 ， 我 们 还 可 以 
用 对 cv: :Mat_ 实 例 的 引用 来 获得 迭代 器 的 开始 和 结束 位 置 , 这 样 就 不 需要 在 begin 和 ena 方 法 中 
指定 迭代 器 的 类 型 了 ， 因 为 在 创建 cv: :Mat_ 引 用 时 迭代 器 类 型 已 被 指定 。 




















CVv::Mat_<cv::Vec3b> cimage (image); 
CVv::Mat_<cv::Vec3b>::iterator it= cimage.begin(); 
Cv::Mat_<cv::Vec3b>::iterator itend= cimage.end(); 
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2.4.5 ”参阅 


口 2.5 节 讨论 迭代 带 在 扫描 图 像 时 的 效率 。 
口 如 果 你 不 熟悉 面向 对 象 编程 中 迭代 器 的 概念 ， 不 知道 在 ANSI C+ 中 如 何 实现 迭代 器 ， 可 
阅读 STL 人 迭代 器 的 教程 。 在 网 上 搜索 关键 字 “STL 和 迭代 顺 ”， 你 会 发 现 很 多 此 类 内 容 。 


























2.5 ”编写 高 效 的 图 像 扫 描 循 环 

本 章 前 面 几 节 介绍 了 为 处 理 像素 而 扫描 图 像 的 几 种 方法 。 本 节 我 们 来 比较 一 下 这 些 方法 的 
效率 。 

在 编写 图 像 处 理 函数 时 ， 你 需要 充分 考虑 运行 效率 。 在 设计 函数 时 ,你 要 经 常 检查 代码 的 运 
行 效率 ， 找 出 处 理 过 程 中 可 能 使 程序 变 慢 的 瓶颈 。 

但 是 有 一 点 非常 重要 ,除非 确实 必要 ,不 要 以 牺 性 程序 的 清晰 度 来 优化 性 能 。 简洁 的 代码 总 
是 更 容易 调试 和 维护 。 只 有 对 程序 效率 至 关 重要 的 代码 段 ， 才 需要 进行 重度 优化 。 




















2.5.1 ”如何 实现 


为 了 衡量 函数 或 代码 段 的 运行 时 间 ，OpenCV 有 一 个 非常 实用 的 函数 ， 即 cv: :get 
TickCount () ， 该 函数 返回 从 最 近 一 次 电脑 开机 到 当前 的 时 钟 周期 数 。 因 为 我 们 希望 得 到 以 
秒 为 单位 的 代码 运行 时 间 ， 所 以 要 使 用 男 一 个 方法 ， 即 cv: :getTickFrequency () ， 这 个 方 
法 返回 每 秒 的 时 钟 周期 数 。 为 了 获得 某 个 函数 (或 代码 段 ) 的 运行 时 间 ， 通常 需 使 用 这 样 的 程 
序 模板 : 
































const int64 start = cv::getTickCount () ; 
colorReduce (image); // 调用 函数 
// 经 过 的 时 间 (单位 : 秒 ) 
double duration = (cv::getTickCount ()-start)/ 
cv: :getTickFrequency (); 


2.5.2 ”实现 原理 


本 章 的 colorReduce 函 数 有 几 种 不 同 的 实现 方式 ， 这 里 我 们 列 出 每 种 方式 的 运行 时 间 ， 实 
际 的 数据 跟 使 用 的 电脑 有 关 (我们 使 用 配置 64 位 Intel Core i7、 主 频 2.40GHz 的 电脑 )。 观 察 运 行 
时 间 的 相对 差距 更 有 意义 。 此 外 ， 测 试 结果 也 跟 生 成 可 执行 文件 的 具体 编译 器 有 关 。 我 们 采用 
4288 像 素 x 2848 像 素 的 图 像 ， 测 试 减 色 操作 的 平均 运行 时 间 。 


首先 ,我 们 来 比较 2.3.4 节 描述 的 三 种 减 色 运算 方法 。 有 趣 的 是 ,使 用 了 位 运算 符 的 方法 用 时 
9.5 ms, 要 比 其 他 方法 快 得 多 ; 使 用 整数 除法 的 方法 用 时 26 ms; 使 用 取 模 运算 符 的 方法 用 时 33 ms。 
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由 此 可 见 ， 最 快 和 最 慢 的 速度 相差 竟 超 过 3 倍 ! 因此 ， 要 在 图 像 循环 中 计算 出 结果 ， 花 些 时 间 找 
出 效率 最 高 的 方法 十 分 重要 ， 其 净 影 响 会 非常 明显 。 

如 果 需 要 重新 分 配 输出 图 像 而 不 是 就 地 处 理 ， 运 行 时 间 就 变 为 29 ms。 增 加 的 时 间 代 表 内 存 
分 配 的 开销 。 

对 于 可 以 预先 计算 的 数值 , 要 避免 在 循环 中 做 重复 计算 ,这样 很 明显 会 浪费 时 间 。 例如 在 减 
色 函 数 中 使 用 下 面 的 内 层 循环 : 


int nc= image.cols * image.channels (); 
uchar div2= div>>1; 








for (int i=0; i<nc; i++) { 


然后 改 成 这 样 : 





for (int i=0; i<image.cols * image.channels(); i++) { 
总 人 
*data++ += div>>1; 


在 前 面 的 代码 循环 中 ， 你 需要 反复 计算 一 行 的 元 素 个 数 和 aiv>>1 的 结果 ， 其 运行 时 间 是 
52 ms, 明显 比 修改 前 的 版 本 ( 26 ms ) 要 慢 。 但 是 要 注意 , 有 些 编译 带 能 够 对 此 类 循环 进行 优化 ， 
仍 会 生成 高 效 的 代码 。 

2.4 节 讨论 了 使 用 迭代 器 的 减 色 函 数 ， 它 的 运行 时 间 更 长 ， 为 32 ms。 使 用 迭代 器 的 主要 目的 
是 简化 图 像 扫描 过 程 ， 降 低 出 错 的 可 能 性 。 


为 了 进行 完整 的 测试 ， 我 们 实现 了 用 at 方法 访问 像素 的 函数 。 这 种 实现 方式 的 主 循环 如 下 : 



































for (int j=0; j<nl; j++) { 
for (int i=0; i<nc; i++) { 


// 处 理 每 个 像素 --------------------- 


image.at<cv::Vec3b>(j,i)[0]= 

image.at<cv: :Vec3b>(j,i) [0]/div*div + div/2; 
image.at<cv: :Vec3b>(j,i)[1]= 

image.at<cv: :Vec3b>(j,i) [1]/div*div + div/2; 
image.at<cv: :Vec3b>(j,i) [2]= 

image.at<cv: :Vec3b>(j,i) [2]/div*div + div/2; 


// 像素 处 理 结束 ---------------- 


) // 一 行 结 

} 

这 种 实现 方法 用 时 53 ms ， 要 慢 很 多 。 该 方法 应 该 在 需要 随机 访问 像素 的 时 候 使 用 ， 绝 不 要 
在 扫描 图 像 时 使 用 。 
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即使 处 理 的 元 素 总 数 相同 , 使 用 较 短 的 循环 和 多 条 语句 通常 也 要 比 使 用 较 长 的 循环 和 单条 语 
名 的 运行 效率 高 。 类 似 地 ， 如 果 你 要 对 一 个 像素 执行 N 个 不 同 的 计算 过 程 ， 那 就 在 单个 循环 中 执 
行 全 部 计算 ， 而 不 是 写 N 个 连续 的 循环 ， 每 个 循环 执行 一 个 计算 。 

我 们 还 做 过 连续 性 测试 ,针对 连续 图 像 生成 一 个 循环 , 而 不 是 对 行 和 列 运 行 常规 的 二 重 循环 。 
例如 ， 对 于 我 们 测试 中 用 到 的 非常 大 的 图 像 ， 这 种 优化 效果 不 明显 ( 从 26 ms 变 为 25 ms )。 但 通 
常情 况 下 ， 采 用 这 种 策略 是 一 个 非常 好 的 做 法 ， 因 为 它 会 明显 提升 速度 。 















































2.5.3 扩展 阅读 


还 有 一 个 提高 程序 运行 效率 的 方法 是 采用 多 线程 ， 尤 其 是 在 使 用 多 核 处 理 器 时 。OpenMP 和 
Intel 线 程 构建 模块 ( Threading Building Block，TBB ) 是 两 个 流行 的 并 发 编程 API， 用 于 创建 和 管 
理 线程 。 而 且 现在 c++11 本 身 就 支持 多 线程 。 





























2.5.4 ”参阅 
口 2.7.4 节 介绍 了 一 种 减 色 函数 的 实现 方法 ， 它 使 用 了 OpenCV 2 算法 图 像 运 算 符 ， 运行 时 间 
为 25 ms。 
口 4.2 节 介绍 了 一 种 基于 速 查 表 的 减 色 函数 实现 方法 ， 它 的 理念 是 预先 计算 所 有 减少 亮度 的 





值 ， 运 行 时 间 为 22 ms。 


2.6 扫描 图 像 并 访问 相 邻 像素 


在 图 像 处 理 中 计算 像素 值 时 , 经常 需 要 用 它 的 相 邻 像素 的 值 。 如 果 相 邻 像素 在 上 一 行 或 下 一 
行 ， 就 需要 同时 扫描 图 像 的 多 行 。 本 节 介 绍 实现 方法 。 








2.6.1 准备 工作 


为 了 便于 说 明 问 题 ， 我 们 使 用 一 个 锐 化 图 像 的 处 理 函 数 。 它 基于 拉 普 拉 斯 算 子 (将 在 第 6 章 
中 讨论 )。 在 图 像 处 理 领 域 有 一 个 众所周知 的 结论 : 如 果 从 图 像 中 减 去 拉 普 拉 斯 算 子 部 分 ， 图 像 
的 边缘 就 会 放大 ， 因 而 图 像 会 变 得 更 加 尖锐 。 

用 以 下 方法 计算 镜 化 的 数值 : 

sharpened_ pixel= 5*current-left-right-up-down; 


这 里 的 1eft 是 与 当前 像素 相 邻 的 左 侧 像素 ，up 是 在 上 一 行 的 相 邻 像素 ， 以 此 类 推 。 

































































2.6 扫描 图 像 并 访问 相 邻 像素 37 





2.6.2 ”如 何 实现 


这 里 不 能 使 用 就 地 处 理 , 使 用 者 必须 提供 一 个 输出 图 像 。 图像 扫描 中 使 用 了 三 个 指针 , 一 个 
表示 当前 行 ,一 个 表示 上 面 的 行 ， 另 外 一 个 表示 下 面 的 行 。 另 外 , 在 计算 每 一 个 像素 时 都 需要 访 
问 与 它 相 邻 的 像素 ， 因 此 有 些 像 素 的 值 是 无 法 计算 的 ,包括 第 一 行 、 最 后 一 行 、 第 一 列 、 最 后 一 
列 的 像素 。 这 个 循环 可 以 这 样 写 : 











void sharpen(const cv: :Mat &image, cv::Mat &result) { 


// 判断 是 否 需要 分 配 图 像 数据 。 如 果 需 要 ， 就 分 配 
result.create(image.size(), image.type()); 
int nchannels= image.channels(); // 获得 通道 数 





// 处 理 所 有 行 (除了 第 一 行 和 最 后 一 行 ) 


for (int j= 1; j<image.rows-1; j++) { 


const uchar* previous= 


image.ptr<const uchar>(j-1); // 上 一 行 
const uchar* current= 

image.ptr<const uchar>(j); // 当前 行 
const uchar* next= 

image.ptr<const uchar>(j+1); // 下 一 行 


uchar* output= result.ptr<uchar>(j); // 输出 行 
for (int i=nchannels; i<(image.cols-1)*nchannels; i++) { 


*output++= CV::saturate_ cast<uchar>( 
5*current [i]-current[i-nchannels]- 
current [i+nchannels]-previous[i]-next[i]); 
} 


// 把 未 处 理 的 像素 设 为 0 

zeSsult .row(0) .setTo(cv::Scalar (0)); 
result.row(result.rows-1) .setTo(cv::Scalar (0)); 
result.col(0) .setTo(cv::Scalar (0)); 

result.col (result.cols-1).setTo(cv::Scalar (0)); 


} 
注意 这 个 函数 是 如 何 同时 适应 灰 度 图 像 和 彩色 图 像 的 。 如 果 我 们 在 测试 用 的 灰 度 图 像 上 执行 
该 函数 ， 将 得 到 如 下 结 
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ja Sharpened Image 5 





2.6.3 ”实现 原理 


为 了 访问 在 上 一 行 和 下 一 行 的 相 邻 像素 , 只 需 定义 额外 的 指针 ,并 与 当前 行 的 指针 一 起 递增 ， 
然后 就 可 以 在 扫描 循环 内 访问 上 下 行 的 指针 了 。 


在 计算 输出 像素 的 值 时 ， 我 们 调用 了 cv: :saturate_cast 模 板 函 数 ， 并 传人 运算 结果 。 这 
是 因为 计算 像素 的 数学 表达 式 的 结果 经 常 超出 允许 的 范围 ( 即 小 于 0 或 大 于 255 )。 使 用 这 个 函数 
可 把 结果 调整 到 8 位 无 符号 数 的 范围 内 , 具体 做 法 是 把 小 于 0 的 数值 调整 为 0, 大 于 255 的 数值 调整 
为 255。 这 就 是 cv: :saturate_cast<uchar> 函 数 的 作用 。 如 果 输 入 参数 是 浮 点 数 ， 就 会 得 到 
最 接近 的 整数 。 可 以 在 调用 这 个 函数 时 显 式 地 指定 其 他 数据 类 型 ,以 确保 结果 在 该 数据 类 型 定义 
的 范围 之 内 。 


由 于 边框 上 的 像素 没有 完整 的 相 邻 像素 ,因此 不 能 用 前 面 的 方法 计算 ， 需 要 另行 处 理 。 这 里 
我 们 简单 地 把 它们 设置 为 0。 有 时 也 可 以 对 这 些 像素 做 特殊 的 计算 ， 但 是 大 多 数 情况 下 ， 花 时 间 
处 理 这 些 极 少数 像素 是 没有 意义 的 。 在 本 例 中 ,我们 在 把 边框 的 像素 设置 为 0 时 用 到 了 两 个 特殊 
的 方法 ， 即 row 和 col。 这 两 个 方法 返回 一 个 特殊 的 cv: :Mat 实 例 , 它 包 含 一 个 单行 ROI ( 或 单列 
ROI )， 具 体 范 围 取决 于 参数 (第 1 章 讨论 过 兴趣 区 域 )。 这 里 没有 进行 复制 ， 因 为 只 要 这 个 一 维 
和 矩阵 的 元 素 被 修改 ,原始 图 像 也 会 修改 。 我 们 用 setTo 方 法 来 实现 这 个 功能 ， 此 方法 对 矩阵 中 所 
有 元 素 赋 值 。 看 下 面 的 语句 : 


zeSsult .row(0) .setTo(cv::Scalar (0)); 


这 个 语句 把 结果 图 像 第 一 行 的 所 有 像素 设置 为 0。 对 于 三 通道 彩色 图 像 ， 需 要 使 用 
cv::Scalar (a, b,c) 来 指定 三 个 数值 ， 分 别 对 像素 的 每 个 通道 赋值 。 
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2.6.4 扩展 阅读 


在 对 像素 邻 域 进行 计算 时 , 通常 用 一 个 核心 矩阵 来 表示 。 这 个 核心 矩阵 展现 了 为 得 到 预期 结 
果 ， 如 何 将 计算 相关 的 像素 组 合 起 来 。 针 对 本 节 使 用 的 锐 化 滤波 器 ， 核 心 和 矩阵 可 以 是 这 样 的 : 



































除非 男 有 说 明 ， 当 前 像素 用 核心 矩阵 中 心 单元 格 表示 。 核心 矩阵 中 每 个 单元 格 表示 相关 像素 
的 乘法 系数 ,像素 应 用 核心 矩阵 得 到 的 结果 ， 就 是 这 些 乘 积 的 累加 。 核 心 矩 阵 的 大 小 就 是 邻 域 的 
大 小 ( 这 里 是 3 x 3 )。 从 这 个 描述 可 以 看 出 ， 根 据 锐 化 滤波 器 的 要 求 ， 水 平和 垂直 方向 的 四 个 相 
邻 像素 被 乘 以 -1， 当 前 像素 被 乘 以 5。 在 图 像 上 应 用 核心 矩阵 ， 不 只 是 为 了 摘 述 方便 ， 它 是 信和 号 
处 理 中 卷 积 概念 的 基础 。 核 心 矩 阵 定义 了 一 个 用 于 图 像 的 滤波 器 。 


鉴于 滤波 是 图 像 处 理 中 常见 的 操作 ,OpenCV 专 门 为 此 定义 了 一 个 函数 , 即 cv: :filter2D。 
要 使 用 这 个 函数 ， 只 需要 定义 一 个 内 核 (以 矩阵 的 形式 )， 调 用 函数 并 传人 图 像 和 内 核 ， 即 可 返 
回 滤波 后 的 图 像 。 因 此 ， 使 用 这 个 函数 可 以 很 容易 地 重新 定义 锐 化 函数 
















































































void sharpen2D(const cv: :Mat &image, cv::Mat &result) { 


// 构造 内 核 (所 有 入 口 都 初始 化 为 0) 
cv::Mat kernel(3,3,CV_32F,cv::Scalar(0)); 
// 对 内 核 赋值 


kernel.at<float>(1,1)= 5.0; 
kernel.at<float>(0,1)= -1.0; 
kernel.at<float>(2,1)= -1.0; 
kernel.at<float>(1,0)= -1.0; 
kernel.at<float>(1,2)= -1.0; 





// 对 图 像 滤波 
cv::filter2D(image,result,image.depth(),kernel); 


} 

这 种 实现 方式 得 到 的 结果 ， 与 前 面 的 完全 相同 〈 执行 效率 也 相同 )。 如 果 处 理 彩 色 图 像 ， 三 
个 通道 可 以 应 用 同一 个 内 核 。 注 意 ,， 使 用 大 内 核 的 filter2D 函 数 是 特别 有 利 的 ， 因 为 这 种 情况 
下 它 使 用 了 更 高 效 的 算法 。 








2.6.5 参阅 
口 第 6 章 更 详细 地 解释 了 图 像 滤 波 的 概念 。 
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2.7 ”实现 简单 的 图 像 运算 


图 像 就 是 普通 的 和 矩阵, 可 以 进行 加 、 减 、 乘 、 除 运算 , 因此 可 以 用 多 种 不 同 的 方式 组 合 图 像 。 
OpenCV 提 供 了 很 多 图 像 算法 运算 符 ， 本 节 将 讨论 它们 的 用 法 。 











2.7.1 准备 工作 
我 们 使 用 算法 运算 符 ， 将 第 二 个 图 像 与 输入 图 像 进行 组 合 。 下 面 就 是 第 二 个 图 像 : 








2.7.2 ”如 何 实现 


这 里 我 们 把 两 个 图 像 相 加 ， 用 于 创建 特效 图 或 覆盖 图 像 中 的 信息 。 我 们 可 以 使 用 cv: :aaq 
函数 来 实现 相 加 功能 。 现 在 我 们 想得到 加 权 和 ， 因 此 使 用 更 精确 的 cv: :adqdqweightedq 函 数 : 











cv::addWeighted (imagel,0.7,image2,0.9,0.,result); 


操作 的 结果 是 一 个 新 图 像 ， 如 下 图 所 示 : 
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2.7.3 ”实现 原理 


所 有 二 进 制 运算 函数 的 用 法 都 一 样 : 提供 两 个 输入 参数 ,指定 一 个 输出 参数 。 有 些 情况 下 还 
可 以 指定 加 权 系数 ,作为 运算 时 的 缩放 因子 。 每 个 函数 都 可 以 有 多 种 格式 ，cv: :aqq 是 典型 的 具 
有 多 种 格式 的 函数 : 

/elils .ali]+b.[i]:; 

cv::add(imageA, imageB, resultC); 

A SLES + 

cv::add (imageA,cv::Scalar (k),resultcC); 

// cf[il= kl*a[l]+k2*b[i]+k3; 

cv::addWeighted (imageA,k1,imageB, k2,k3,resultC); 

/YrELtLils kK*allil]+bEi]:; 

cv::scaleAdd (imageA,k,imageB,resultC); 


有 些 函 数 还 可 以 指定 一 个 掩 码 : 


// if (mask[i]) c[i]= ali]+b[i]; 
cv::add(imageA, imageB, resultC,mask); 


使 用 了 掩 码 后 ,操作 就 只 会 在 掩 码 值 非 空 的 像素 上 执行 ( 掩 码 必须 是 单 通道 的 )。 看 一 下 
cv::subtract、cv::absdiff、cv: :multiply 和 cv: :divide 等 函数 的 多 种 格式 。 此 外 还 有 
位 运算 符 ( 对 像素 的 二 进 制 数值 进行 按 位 运算 ): cv: :bitwise_and、cv::bitwise_or、 

cv: :pitwise_xor 和 cv: :bitwise_not。 cv: :min 和 cv: :max 运 算 符 也 非常 实用 , 它们 可 找到 
每 个 元 素 中 最 大 或 最 小 的 像素 值 。 


在 所 有 场合 都 要 使 用 cv: :saturate_cast 国 数 ( 见 2.6 节 )， 以 确保 结果 在 预定 的 像素 值 范 
围 之 内 ( 避免 上 洪 或 下 洪 )。 


这 些 图 像 必定 有 相同 的 大 小 和 类 型 ( 如 果 与 输入 图 像 大 小 不 匹配 ， 输 出 图 像 会 重新 分 配 )。 
运 























尖 疝 






























































还 有 一 些 运 算 符 使 用 单个 输入 图 像 : :Sqrt、 cv::pow、 cv::abs、 cv::cuberoot、 
cv: :exp 和 cv: :1og。 事实 上 ， 无 沦 需要 对 图 像 像素 做 任何 运算 OpenCV 几 乎 都 有 相应 的 函数 。 


2.7.4 扩展 阅读 


对 于 cv: :Mat 实 例 或 者 实例 中 的 个 别 通道 ， 也 可 以 使 用 普通 的 C++ 运 算 符 。 下 面 两 节 解 释 如 
何 实现 。 


1. 重 载 图 像 运算 符 


OpenCV 2 中 ， 大 多 数 运算 函数 都 有 对 应 的 重 载运 算 符 。 因 此 调用 cv: :adqdqweighteq 的 语句 
可 以 写成 : 
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result= 0.7*imagel+0.9*image2; 


这 种 代码 更 加 紧凑 也 更 容易 阅读 。 这 两 种 计算 加 权 和 的 方法 是 等 效 的 。 特 别 指出 ， 这 两 种 方 
法 都 会 调用 cv: :Saturate_cast 函数 。 


大 部 分 C++ 运算 符 都 已 被 重 载 。 其 中 包括 : 位 运算 符 &、 | 、“^ 和 ~; 子 数 min、max 和 abs; 
比较 运算 符 < 、<=、 、!=、> 和 >=， 它 们 返回 一 个 8 位 的 二 值 图 像 。 此 外 还 有 和 矩阵 乘法 mlxm2 
(其 中 ml 和 m2 都 是 cv::Mat 实 例 )、 和 抢 阵 求 道 ml.inv() 、 变 位 mi.t() 、 行 列 式 
ml.dqeterminant () 、 求 范 数 v1.norm() 、 义 乘 v1 .cross (v2) 、 点 乘 v1.dqot (v2) ， 等 等 。 在 
理解 这 点 后 ， 你 就 会 使 用 相应 的 组 合 赋值 符 了 ( 例如 += 运 算 符 )。 


在 2.4 节 我 们 讨论 了 一 个 减 色 函数 ， 它 使 用 循环 来 扫描 图 像 的 像素 并 对 像素 进行 运算 操作 。 
利用 本 节 的 知识 ， 我 们 可 以 使 用 针对 输入 图 像 的 运算 符 简单 地 重 写 这 个 函数 : 









































image= (image&cv::Scalar (mask,mask,mask)) 
+Cv::Scalar (div/2,div/2,div/2); 


由 于 我 们 操作 的 是 彩色 图 像 ， 因 此 使 用 了 cv: :scalar。 用 2.4 节 中 的 方法 做 测试 , 得 到 结 
是 53 毫 秒 。 使 用 图 像 运 算 符 可 以 简化 代码 ， 提 高 开发 效率 ， 因 此 应 该 考虑 在 大 多 数 场 合 采用 。 























2. 分 割 图 像 通 道 


有 时 我 们 需要 分 别处 理 图 像 中 的 不 同 通 道 , 例如 只 对 图 像 中 的 一 个 通道 执行 某 个 操作 。 这 当 
然 可 以 通过 图 像 扫描 循环 实现 , 但 也 可 以 使 用 cv: :split 函 数 , 将 图 像 的 三 个 通道 分 别 复制 到 三 
个 不 同 的 cv: :Mat 实 例 中 。 假 设 我 们 要 把 一 个 雨 景 图 只 加 到 蓝 色 通道 中 ， 可 以 这 样 实现 : 


// 创建 三 个 图 像 的 向 量 

std: :vector<cv: :Mat> planes; 
// 分 割 一 个 三 通道 图 像 为 三 个 单 通道 图 
cv::split (imagel,planes); 

// 加 到 蓝 色 通道 上 

planes[0]+= image2; 

// 合并 三 个 单 通道 图 像 为 一 个 三 通道 图 像 
cv: :merge (planes,result); 


这 里 的 cv: :merge 函 数 执行 反 向 的 操作 ， 即 用 三 个 单 通道 图 像 创 建 一 个 彩色 图 像 。 
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2.8 图 像 重 映射 


在 本 章 的 前 面 几 节 ，, 我 们 学 习 了 如 何 读 取 和 修改 图 像 的 像素 值 ， 最 后 一 节 我 们 来 学 习 如 何 通 
过 移动 像素 修改 图 像 的 外 观 。 这 个 过 程 不 会 修改 图 像 值 ,而 是 把 每 个 像素 的 位 置 重新 映射 到 新 的 
位 置 。 这 可 用 来 创建 图 像 特 效 ， 或 者 修正 因 镜 片 等 原因 导致 的 图 像 扭曲 。 
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2.8.1 ”如何 实现 

要 使 用 OpenCV 的 remap 函 数 ， 首 先 需要 定义 在 重 映射 处 理 中 使 用 的 映射 参数 ， 然 后 把 映射 
参数 应 用 到 输入 图 像 。 很 明显 , 定义 映射 参数 的 方式 将 决定 产生 的 效果 。 这 里 我 们 定义 一 个 转换 
函数 ， 在 图 像 上 创建 波浪 形 效果 : 


// 重 映射 图 像 ， 创 建 波浪 形 效 果 


void wave(const cv::Mat &image, cv::Mat &result) { 





// 映射 参数 
cv::Mat srcx(image.rows,image.cols,CV_32F); 
cv::Mat srcY(image.rows,image.cols,CV_32F); 


// 创建 映射 参数 
for (int i=0; i<image.rows; i++) { 
for (int j=0; j<image.cols; j++) { 


// (i,j) 像 素 的 新 位 置 
srcx.at<float>(i,j)= j; // 保持 在 同一 列 
// 原来 在 第 i 行 的 像素 ， 现 在 根据 一 个 正弦 曲线 移动 
srcY.at<float>(i,j)= i+5*sin(j/10.0); 
} 


// 应 用 映射 参数 


Cv::remap (image, result, srcX, srcY, cv::INTER_ LINEAR); 
} 


得 到 结果 如 下 : 





I Remapped image 一 口 


-=A 

















2.8.2 ”实现 原理 
重 映射 是 为 了 修改 像素 的 位 置 ， 生成 一 个 新 版 本 的 图 像 。 为 了 构建 新 图 像 , 需要 知道 目标 图 
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像 的 每 个 像素 在 源 图 像 中 的 原始 位 置 。 因此 我 们 需要 这 样 的 映射 函数 , 它 能 根据 像素 的 新 位 置 得 
到 像素 的 原始 位 置 。 这 个 转换 过 程 描 述 了 如 何 把 新 图 像 的 像素 映射 回 原始 图 像 ， 因此 称 为 反 向 映 
射 。 在 OpenCV 中 ， 可 以 用 两 个 映射 参数 来 说 明 反 向 映射 : 一 个 针对 x 坐标 ， 男 一 个 针对 y 坐 标 。 
它们 都 用 浮 点 数 型 的 cv: : Mat 实例 来 表示 : 

















// 映射 参数 
cv::Mat srcx(image.rows,image.cols,CV_32F); // xX 方 向 
cv::Mat srcY(image.rows,image.cols,CV_32F); // y 方 向 


这 些 和 矩阵 的 大 小 决定 了 目标 图 像 的 大 小 。 目 标 图 像 中 (ij ) 像素 的 值 ， 可 以 用 下 面 的 代码 从 
原始 图 像 获 得 : 

( srecX.at<floats(L,J]), BroYv atefloats(L;j) ") 

例如 我 们 在 第 1 章 中 展示 的 简单 的 图 像 翻 转 效 果 ， 可 以 用 下 面 的 映射 参数 创建 . 


// 创建 映射 参数 
for (int i=0; i<image.rows; I++) { 
for (int j=0; j<image.cols; j++) { 








// 水 平 翻转 
srcxX.at<float>(i,j) 
srcY.at<float>(i,j) 
} 
} 


只 要 简单 地 调用 OpenCV 的 remap 函 数 ， 即 可 生成 结果 图 像 ; 


// 应 用 映射 参数 


image.cols-j-1; 
i 








cv: :remap (image, // 源 图 像 
result, // 目标 图 像 
srcx, // X 方 向 映射 
STCY， // y 方 向 映射 


CV: :INTER_LINEAR) ; // 播 值 法 


有 趣 的 是 , 这 两 个 映射 参数 包含 的 值 是 浮 点 数 。 因 此 目标 图 像 中 的 像素 可 以 映射 回 一 个 非 整 
数 的 值 ( 即 处 在 两 个 像素 之 间 的 位 置 )， 这 使 我 们 可 以 随意 地 定义 映射 参数 ， 非 常 实 用 。 例 如 在 
前 面 的 重 映射 例子 中 ， 我 们 用 了 一 个 sinusoidqal 函 数 进 行 转换 。 但 是 ， 这 也 导致 必须 在 真实 的 
像素 之 间 插 和 人 虚拟 像素 的 值 。 可 以 采用 不 同 的 方法 实现 像素 插值 ,并且 可 用 *emap 函 数 的 最 后 一 
个 参数 ， 来 表示 选择 了 哪 种 方法 。 像 素 插 值 是 图 像 处 理 中 一 个 重要 的 概念 ， 将 在 第 6 章 中 讨论 。 



































2.8.3 ”参阅 


口 6.2.3 节 解释 了 像素 插值 的 概念 :。 
口 10.2 节 使 用 重 映射 来 校正 图 像 中 的 镜片 扭曲 。 
口 10.5 节 使 用 透视 图 像 变形 来 构建 图 像 全 景 。 
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本 章 包 括 以 下 内 容 : 

口 在 算法 设计 中 使 用 策略 模式 ; 

口 用 控制 如 设计 模式 实现 功能 模块 间 通 信 ; 
口 转换 颜色 表示 法 ; 

口 用 色调 、 饱 和 度 、 亮 度 表 示 颜 色 。 























3.1 简介 


优秀 的 计算 机 视觉 程序 来 源 于 良好 的 编程 实践 。 开 发 无 bug 的 应 用 程序 只 是 最 基本 的 要 求 ， 
真正 好 的 程序 能 让 你 和 你 在 团队 在 面临 新 的 需求 时 很 容易 地 对 程序 进行 修改 和 升级 。 本 章 介绍 如 
何 充分 利用 面向 对 象 编程 的 理念 开发 高 质量 的 软件 程序 , 并 将 特别 介绍 几 种 重要 的 设计 模式 ,以 
便 开 发 易于 测试 、 维 护 和 重用 的 应 用 组 件 。 

在 软件 工程 中 ,设计 模式 是 一 个 广为人知 的 概念 。 总 体 来 说 ,一 个 设计 模式 就 是 一 个 可 靠 、 
可 重用 的 解决 方案 , 用 来 解决 软件 设计 中 常见 的 一 般 性 问题 。 现 在 已 经 有 很 多 软件 设计 模式 ,并 
且 都 有 很 详细 的 文档 资料 。 优 秀 的 开发 人 员 应 该 在 实践 中 掌握 现 有 的 设计 模式 。 

本 章 还 有 一 个 目的 , 就 是 介绍 如 何 处 理 图像 的 颜色 。 本章 贯 穿 使 用 的 例子 将 展示 如 何 检测 某 
种 特定 颜色 的 像素 ， 最 后 两 节 解 释 如 何 使 用 不 同 的 色彩 空间 。 













































































3.2 在 算法 设计 中 使 用 策略 模式 


策略 设计 模式 的 目的 就 是 把 算法 封装 进 类 。 封 装 后 ,算法 之 间 互 相 替 换 ， 或 者 把 几 个 算法 组 
合 起 来 进行 更 复杂 的 处 理 , 都 会 更 加 容易 。 而 且 这 种 模式 能 够 尽 可 能 地 将 算法 的 复杂 性 隐藏 在 
个 直观 的 编程 接口 之 后 ， 因 而 有 利于 算法 的 部 署 。 
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3.2.1 准备 工作 

假设 我 们 要 构建 一 个 简单 的 算法 ,用 来 识别 图 像 中 具有 某 种 颜色 的 所 有 像素 。 这 个 算法 必须 
输入 一 个 图 像 和 一 个 颜色 , 并 且 返 回 一 个 二 值 图 像 ， 显 示 具 有 指定 颜色 的 像素 。 在 运行 算法 前 还 
要 指定 一 个 参数 ， 即 我 们 能 接受 的 颜色 的 公差 。 








3.2.2 ”如 何 实现 


一 旦 用 策略 设计 模式 把 算法 封装 进 类 , 就 可 以 通过 创建 类 的 实例 来 部 署 算法 , 实例 通常 是 在 
程序 初始 化 的 时 候 创建 的 。 在 运行 构造 函数 时 ,类 的 实例 会 用 默认 值 初始 化 算法 的 各 种 参数 ， 以 
便 它 能 立即 进入 可 用 状态 。 我 们 还 可 以 用 适当 的 方法 来 读 写 算法 的 参数 值 。 在 GUI 程 序 中 ， 可 以 
用 多 种 部 件 (文本 框 、 滑 动 条 等 ) 显示 和 修改 参数 ， 用 户 操作 起 来 很 容易 。 

下 一 节 将 展示 一 个 策略 类 的 结构 。 这 里 先 看 一 个 部 署 和 使 用 它 的 例子 。 我 们 写 一 个 简单 的 主 
函数 ， 调 用 颜色 检测 算法 : 


int main() 


{ 














// 1. 创建 图 像 处 理 器 对 象 


ColorDetector cdetect; 








// 2. 读 取 输入 的 图 像 
cv::Mat image= cv::imread("boldt.jpg"); 
if (image.empty ()) 

return 0; 


// 3. 设置 输入 参数 
cdetect.setTargetColor(230,190,130); // 这 里 表示 蓝天 


cv: :namedWindow ("result"); 


// 4. 处 理 图 像 并 显示 结果 
cv::imshow("result",cdetect.process (image)); 





cv: :waitKkey (); 


return 0; 


} 

运行 这 个 程序 ， 检 测 第 2 章 用 过 的 彩色 城堡 图 中 的 蓝天 ， 输 出 结果 如 下 页 图 所 示 。 

这 里 白色 像素 表示 检测 到 指定 的 颜色 ， 黑 色 表示 没有 检测 到 。 

很 明显 , 封装 进 这 个 类 的 算法 相对 简单 (下面 我 们 会 看 到 , 它 只 是 组 合 了 一 个 扫描 循环 和 一 
个 公差 参数 )。 当 算法 的 实现 过 程 更 加 复杂 ， 步 又 繁多 ， 并 且 包 含 多 个 参数 时 ， 策 略 设计 模式 会 
真正 显示 出 强大 的 功能 。 
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3.2.3 ”实现 原理 


这 个 算法 的 核心 过 程 非常 简单 , 它 只 是 对 每 个 像素 进行 循环 扫描 , 把 它 的 颜色 和 目标 颜色 做 
比较 。 利 用 在 2.3 节 学 过 的 知识 ， 可 以 这 样 写 这 个 循环 : 


// 取得 迭代 器 
Cv::Mat_<cv::Vec3b>::const_iterator it= 
image.begin<cv: :Vec3b>(); 
Cv::Mat_<cv::Vec3b>::const_iterator itend= 
image.end<cv: :Vec3b>(); 
Cv::Mat_<uchar>::iterator itout= result.begin<uchar>(); 











// 对 于 每 个 像素 


for ( ; it!= itend; ++it, ++itout) { 


// 比较 与 目标 颜色 的 差距 
if (getDistanceToTargetColor(*it)<=maxDist) { 
*1tOUuts,. 255» 
} else { 
*itout= 0; 
l 
} 
cv: :Mat 类 型 的 变量 image 表 示 输 入 图 像 ，result 表 示 输 出 的 二 值 图 像 。 因 此 首先 要 创建 
迭代 器 , 这 样 扫描 循环 就 很 容易 实现 了 。 在 每 个 迭代 步骤 中 计算 当前 像素 的 颜色 与 目标 颜色 的 差 
距 ， 检查 它 是 否 在 公差 (maxDist ) 范围 之 内 。 如 果 是 ， 就 在 输出 图 像 中 赋值 255 (白色 ); 否 
则 就 赋值 0 ( 黑色 )。 这 里 用 getDistanceToTargetColor 方 法 来 计算 与 目标 颜色 的 差距 。 此 外 
还 有 其 他 方法 可 计算 这 个 差距 , 例如 计算 包含 RGB 颜色 值 的 三 个 向 量 之 间 的 欧 几 里 得 距离 。 为 了 
简化 计算 过 程 ， 这 里 我 们 只 是 把 RGB 值 差距 的 绝对 值 ( 也 称 为 城区 距离 ) 进行 累加 。 注 意 , 在 现 
代 体 系 结构 中 浮 点 数 的 欧 几 里 德 距离 的 计算 速度 可 能 比 简单 的 城区 距离 更 快 , 在 做 设计 时 我 们 也 
需要 考虑 这 点 。 另 外 , 为 了 增加 灵活 性 , 我 们 依据 getcolorDistance 方 法 来 编写 getDistance 
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ToTargetColor 方 法 : 


// 计算 与 目标 颜色 的 差距 
int getDistanceToTargetColor(const cv::Vec3b& color) const { 
return getColorDistance(color, target); 


} 


// 计算 两 个 颜色 之 间 的 城区 距离 
int getColorDistance(const cv::Vec3b& color1， 
Const cv::Vec3b& color2) const { 


return abs(color1[0]-color2[0])+ 
abs (color1i[1]-color2[1])+ 
abs (CoLlGELL2] C0616r2i21])2 


} 

我 们 用 cv: :vec3d 存 储 三 个 无 符号 字符 型 ， 即 颜色 的 RGB 值 。 变 量 target 表 示 指 定 的 目标 
颜色 ,是 算法 类 的 成 员 变量 。 现 在 我 们 来 定义 处 理 方法 。 用 户 提 供 一 个 输入 图 像 ， 图 像 扫描 完成 
后 即 返回 绪 


cvV::Mat ColorDetector: :Process (Const cv::Mat &image) { 








// 必要 时 重新 分 配 二 值 映像 

// 与 输入 图 像 的 尺寸 相同 ， 不 过 是 单 通道 
result .create(image.size()，CV_ 8U); 
// 在 这 里 放 前 面 的 处 理 循环 


return result; 


} 

在 调用 这 个 方法 时 , 一 定 要 检查 输出 图 像 (包含 二 值 映像 ) 是 否 需 要 重新 分 配 ， 以 匹配 输入 
图 像 的 尺寸 。 因 此 我 们 使 用 了 cv: :Mat 的 create 方 法 。 注 意 ， 只 有 在 指定 的 尺寸 或 深度 与 当前 
图 像 结构 不 匹配 时 ， 它 才 会 进行 重新 分 配 。 
我 们 已 经 定义 了 核心 的 处 理 方法 ,下 面 就 看 一 下 为 了 部 署 该 算法 ,还 需要 添加 哪些 额外 方法 。 
前 面 我 们 已 经 明确 了 算法 需要 的 输入 和 输出 数据 ， 因 此 ， 首 先 要 定义 类 的 属性 来 存储 这 些 数 据 : 












































class ColorDetector { 


private: 


// 允许 的 最 小 差距 


int maxDist; 


// 目标 颜色 
Cv::Vec3b target; 





// 存储 二 值 映像 结果 的 图 像 


cV: :Mat result; 
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要 为 封装 了 算法 的 类 ( 已 命名 为 ColorDetector ) 创建 实例 ， 就 需要 定义 一 个 构造 函数 。 
要 知道 使 用 策略 设计 模式 的 原因 之 一 , 就 是 让 算法 的 部 署 尽 可 能 简单 ,最 简单 的 构造 函数 当然 是 
空 函 数 。 它 会 创建 一 个 算法 类 的 实例 ， 并 处 于 有 效 状态 。 然 后 我 们 在 构造 函数 中 初始 化 全 部 输入 
参数 ,设置 为 默认 值 ( 或 采用 通常 会 带 来 好 结果 的 值 )。 这 里 我 们 认为 通常 能 接受 的 公差 参数 是 
100。 同 时 设置 默认 的 目标 颜色 ， 这 里 选用 黑色 ( 选用 黑色 没有 什么 特别 的 原因 )， 总 的 原则 是 
要 确保 输入 值 可 预期 并 且 有 效 。 


// 空 构 造 吕 数 
/7 在 此 初始 化 默认 参数 | 
ColorDetector() : maxDist(100), target (0,0,0) {} 


此 时 , 创建 该 算法 类 的 用 户 可 以 立即 调用 处 理 方法 并 传 入 一 个 有 效 的 图 像 , 然后 得 到 一 个 有 
效 的 输出 。 这 是 策略 模式 的 另 一 个 目的 ， 即 保证 只 要 参数 正确 ,算法 就 能 正常 运行 。 用 户 显然 希 
望 使 用 个 性 化 设置 ,可 以 用 相应 的 设计 方法 和 获取 方法 来 实现 这 个 功能 。 首 先 要 实现 color 公 差 
参数 的 定制 : 

// 设置 颜色 差距 的 阅 值 

// 阅 值 必须 是 正 数 ， 否 则 束 置 为 0 


void setColorDistanceThreshold(int distance) { 






























































if (distance<0) 
distance=0; 
maxDist= distance; 


} 


// 取得 颜色 差距 的 阅 值 


int getColorDistanceThreshold() const { 


return maxDist; 


} 

注意 , 我们 首先 检查 了 输入 的 合法 性 。 再 次 强调 ,这 是 为 了 确保 算法 运行 的 有 效 性 。 目 标 颜 
色 可 以 用 类 似 的 方法 进行 设置 : 

// 设置 需要 检测 的 颜色 

void setTargetColor (uchar blue, 


uchar green, 
uchar red) { 





// 次 序 为 BGR 
target = cv::Vec3b(blue, green, red); 


} 


// 设置 需要 检测 的 颜色 


void setTargetColor(cv::Vec3b color) { 


target= color; 


} 
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// 取得 需要 检测 的 颜色 
cV::Vec3b getTargetColor() const { 


return targety 


} 

这 次 我 们 提供 了 setTargetcolor 方 法 的 两 种 定义 。 第 一 个 版 本 用 三 个 参数 表示 三 个 颜色 组 
件 ， 第 三 个 版 本 用 cv: :Vec3b 保 存 颜 色 值 。 再 次 强调 ， 这 么 做 的 目的 就 是 让 算法 类 更 便于 使 用 ， 
用 户 只 需要 选择 最 合适 的 设 值 函 数 。 











3.2.4 扩展 阅读 

本 节 介 绍 了 使 用 策略 设计 模式 把 算法 封装 进 类 中 的 理念 。 例 子 中 的 算法 可 识别 出 图 像 中 与 指 
定 目 标 颜色 足够 接近 的 像素 。 在 过 程 中 已 经 完成 了 计算 步骤 。 另外 我 们 可 用 函数 对 象 来 补充 策略 
设计 模式 。 

1. 计算 两 个 颜色 向 量 间 的 距离 

要 计算 两 个 颜色 向 量 间 的 距离 ， 可 使 用 这 个 简单 的 公式 : 




















return abs(color[0]-target{[0])+ 
abs (color[1]-target [1])+ 
abs (color[2]-target [2]); 


然而 ，OpenCV 中 也 有 计算 向 量 的 欧 几 里 德 范 数 的 函数 ， 因 此 我 们 也 可 以 这 样 计算 距离 .: 


return static cast<int>( 
cv: :norm<int,3>(cv::Vec3i(color[0]-target[0], 
color[1]-target[1], 
color[2]-target[2]))); 


改 用 这 种 方式 定义 getDistance 方 法 后 ,得 到 的 结果 与 原来 非常 接近 。 这 里 我 们 之 所 以 使 
用 cv: :Vec3i (三 个 向 量 的 整 型 数组 )， 是 因为 减法 运算 得 到 的 是 整数 值 。 

还 有 一 点 非常 有 趣 , 回顾 一 下 第 2 章 的 内 容 , 我 们 会 发 现 OpenCV 中 矩阵 和 向 量 等 数据 结构 定 
义 了 基本 的 算术 运算 符 。 因 此 有 人 会 想 这 样 计算 距离 : 





return static cast<int>( 
cv: :norm<uchar,3>(color-target)); // 错误 | 


这 种 做 法 看 上 去 好 像 是 对 的 , 但 实际 上 它 是 错误 的 。 这 是 因为 , 为 了 确保 结果 在 输入 数据 类 
型 的 范围 之 内 ( 这 里 是 uchar )， 这 些 运 算 符 通常 都 调用 了 saturate_cast ( 见 2.6 节 )。 因 此 在 
target 的 值 比 color 大 的 时 候 ， 结 果 就 会 是 0 而 不 是 负数 。 正 确 的 做 法 应 该 是 : 















































cv::Vec3b dist; 
cv::absdiff (color,target,dist); 
return cv::sum(dist)[0]; 
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然而 ， 在 计算 两 个 数组 间 的 距离 时 调用 了 两 个 函数 ， 因 此 效率 并 不 高 。 
2. 使 用 OpenCV 函 数 


本 节 中 我 们 采用 在 循环 中 使 用 迭代 器 的 方法 来 进行 计算 。 还 有 一 种 做 法 是 调用 OpenCV 的 系 
列 函 数 ， 也 能 得 到 一 样 的 结果 。 因 此 这 个 检测 颜色 的 方法 可 以 这 样 写 : 




















cv::Mat ColorDetector: :process (const cv::Mat &image) { 


Ma ontpubt> 

// 计算 与 目标 颜色 的 距离 的 绝对 值 

cv::absdiff (image,cv::Scalar (target),output); 
// 把 通道 分 割 进 3 个 图 像 

std: :vector<cv: :Mat> images; 

cv::split (output, images); 

// 3 个 通道 相 加 (这 里 可 能 出 现 饱 和 的 情况 ) 

output= images[0]+images[1]+images [2]; 








// 应 用 阅 值 

cv::threshold (output, // 输入 图 像 
output, // 输出 图 像 
maxDist, // 阅 值 (必须 < 256) 
2555 // 最 大 值 





cvV: :THRESH_BINARY_INV); // 阅 值 化 模式 


return output,; 


} 


该 方法 使 用 了 absqdiff 函 数 计算 图 像 的 像素 与 标量 值 之 间 差距 的 绝对 值 。 该 函数 的 第 二 个 参 
数 也 可 以 不 用 标量 值 ， 改 用 男 一 个 图 像 ， 这 样 就 可 以 逐个 像素 地 计算 差距 。 因 此 两 个 图 像 的 尺寸 
必须 相同 。 然 后 我 们 用 split 函 数 提取 出 存放 差距 的 图 像 的 单个 通道 ( 参见 2.7.4 节 )， 以 便 求 和 。 
注意 ， 累 加 值 有 可 能 超过 255， 但 是 饱和 度 对 值 范围 有 要 求 ， 因 此 最 终结 果 不 会 超过 255。 这 样 
做 的 结果 ， 就 是 这 里 的 maxDi st 参数 也 必须 小 于 256。 如 果 你 觉得 这 样 不 合理 ， 可 以 进行 修改 。 
最 后 一 步 是 用 阔 值 函数 创建 一 个 二 值 图 像 。 这 个 函数 通常 用 于 比较 所 有 像素 和 某 个 阔 值 (第 三 个 
参数 )， 并 且 在 常规 阔 值 化 模式 (cv: :THRESH_BINARY ) 下 ， 对 所 有 大 于 阔 值 旦 大 于 0 的 像素 赋 
值 为 预定 的 最 大 值 ( 第 四 个 参数 )。 这 里 我 们 使 用 相反 的 模式 ( cv: :THRESH_BINARY_INV )， 把 
小 于 或 等 于 阔 值 的 像素 赋值 为 预定 的 最 大 值 。 此 外 还 有 cv: :THRESH_TOZERO_INV 和 
cv: :THRESH_TOZERO_INV 模 式 ， 它 们 使 大 于 或 小 于 阅 值 的 像素 保持 不 变 。 


很 多 情况 下 ，OpenCV 函 数 都 是 一 个 不 错 的 选择 。 你 可 以 使 用 它 快速 地 建立 复杂 程序 ， 减 少 
潜在 的 错误 ,而且 程序 的 运行 效率 通常 也 比较 高 ( 得 益 于 OpenCV 项 目 参与 者 做 的 优化 工作 ) 不 
过 这 样 会 执行 很 多 的 中 间 步 又 ， 消 耗 更 多 内 存 。 


3. 仿 函 数 或 函数 对 象 
利用 C++ 的 操作 符 重 载 功 能 ,我们 可 以 创建 一 个 其 实例 表现 得 像 函 数 的 类 。 它 的 原理 是 重 载 
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operator() 方 法 ， 因 此 调用 类 的 处 理 方法 就 像 调用 一 个 纯粹 的 函数 。 这 种 类 的 实例 被 称 为 函数 
对 象 或 者 仿 函 数 (functor )。 一 个 仿 函 数 通 常 包 含 一 个 完整 构造 函数 ， 因 此 能 够 在 创建 后 立即 使 
用 。 例如， 可 以 在 colorDetector 类 中 添加 下 面 的 构造 也 数 : 








// 完整 构造 函数 
ColorDetector(uchar blue, uchar green, uchar red, 
int maxDist=100): maxDist (maxDist) { 


// 目标 颜色 
setTargetColor(blue, green, red); 


) 
很 显然 ， 前面 定义 的 获取 方法 和 设置 方法 仍然 可 以 使 用 。 可 以 这 样 定义 仿 函 数 方法 : 





Cv::Mat operator() (const cv::Mat &image) { 


// 这 里 放 检 测 颜 色 的 代码 
} 


用 仿 函 数 方法 检测 指定 的 颜色 ， 只 需要 用 这 样 的 代码 片段 : 





ColorDetector colordetector(230,190,130,， // 颜色 
100); // 阅 值 
cv::Mat result= colordetector (image); // 调用 仿 阵 数 
可 以 看 到 , 这 里 对 颜色 检测 方法 的 调用 类 似 于 对 某 个 函数 的 调用 。 事实 上 , colorgdetector 
变量 可 以 当 作 一 个 函数 名 使 用 。 











3.2.5 ”参阅 


口 A. Alexandrescu 提 出 的 “基于 策略 的 类 设计 ”是 策略 设计 模式 的 一 个 变种 ， 它 把 算法 的 选 
择 放 在 编译 时 进行 。 

口 Erich Gamma 等 人 写 的 《设计 模式 : 可 复 用 面向 对 象 软件 的 基础 》( Design Patterns: 
Elements of Reusable Object-Oriented Sofiware，Addison-Wesley 于 1994 年 出 版 ) 是 这 方面 的 
一 本 经 典 著 作 。 














3.3 ”用 控制 器 设计 模式 实现 功能 模块 间 通 信 


在 构建 更 复杂 的 程序 时 , 你 需要 创建 多 个 算法 来 协同 工作 ， 以 实现 一 些 高 级 功能 。 要 合理 地 
构建 程序 并 让 所 有 的 类 能 互相 通信 , 程序 将 会 变 得 越 来 越 复杂 。 因 此 在 一 个 类 中 集中 对 程序 进行 
控制 ,是 非常 有 益 的 。 这 正 是 控制 吉 设 计 模 式 背后 的 思想 。 控 制 需 是 一 个 特殊 的 对 象 ， 充当 着 程 
序 中 心 的 角色 ， 本 节 将 详细 讨论 。 
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3.3.1 准备 工作 


使 用 你 喜欢 的 IDE 建 立 一 个 简单 的 对 话 框 程序 ， 并 创建 两 个 按钮 ， 一 个 用 来 选择 图 像 ， 另 一 
个 用 来 启动 处 理 ， 如 下 图 所 示 : 











Colour Detector 


Open Image | 
Process 











这 里 我 们 使 用 上 节 的 ColorDetector 类 。 


3.3.2 ”如 何 实现 


Controller 类 的 首要 任务 是 创建 执行 程序 所 需 的 类 。 这 里 只 有 一 个 类 ,但 更 复杂 的 程序 就 
会 有 多 个 类 。 另 外 需要 有 两 个 成 员 变量 ， 作 为 对 输入 和 输出 结果 的 引用 : 








class ColorDetectController { 
private: 


// 包含 算法 的 类 
ColorDetector *cdetect; 


cv::Mat image; // 被 处 理 的 图 像 
cvV: :Mat result;// 结果 图 像 








public: 
ColorDetectController() { 
/ /建立 程序 
cdetect= new ColorDetector(); 
} 
这 里 我 们 采用 动态 地 分 配 类 的 方式 , 也 可 以 简单 地 声明 类 的 变量 。 接 着 需要 定义 用 于 控制 程 
序 的 所 有 设置 方法 和 获取 方法 : 


// 设置 颜色 差距 的 阅 值 


void setColorDistanceThreshold(int distance) { 


cdetect->setColorDistanceThreshold(distance); 
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// 取得 颜色 差距 的 阅 值 


int getColorDistanceThreshold() const { 


return cdetect->getColorDistanceThreshold(); 


} 


// 设置 被 检测 的 颜色 
void setTargetColor (unsigned char red, 
unsigned char green, unsigned char blue) { 
cdetect->setTargetColor (blue,green,red); 


} 


// 取得 被 检测 的 颜色 
void getTargetColor (unsigned char &red, 
unsigned char &green, unsigned char &blue) const { 


CVv::Vec3b color= cdetect->getTargetColor(); 


red= Color [2 
Green= color 


i 
[sel 
blue= color[0] 


’ 


} 


// 设置 输入 图 像 。 从 文件 中 读 取 它 


bool setIinputImage(std::string filename) { 
image= cv::imread (filename); 


return !image.empty(); 


} 


// 返回 当前 的 输入 图 像 


const cv::Mat getIinputIimage() const { 


return image; 


} 
你 还 需要 一 个 启动 处 理 过 程 的 方法 ， 供 以 后 调用 : 


// 执行 图 像 处 理 


void process() { 








result= cdetect->process (image); 


} 
此 外 ， 你 还 需要 一 个 方法 来 获取 处 理 结果 : 


// 返回 最 后 处 理 的 结果 图 像 


Const cvV: :Mat getLastResult() const { 








return result; 


邮 


3.3 ”用 控制 器 设计 模式 实现 功能 模块 间 通信 55 





最 后 ， 非 常 重要 的 一 步 是 在 程序 结束 〈 释放 controller 类 ) 时 做 清理 : 
// 删除 由 控制 器 创建 的 对 象 


~ColorDetectController() { 


delete cdetect; // 释放 动态 分 配 的 类 实例 的 内 存 
} 


3.3.3 ”实现 原理 


利用 前 面 提 到 的 controller 类 ， 开 发 人 员 可 以 很 容易 地 构建 执行 算法 的 程序 接口 ， 既 不 需 
要 理解 类 与 类 是 如 何 连接 的 ， 也 不 需要 知道 为 了 让 所 有 类 正确 运行 需要 调用 哪个 类 的 哪个 方法 。 
所 有 这 些 工作 都 由 controller 类 完成 。 你 唯一 需要 做 的 , 就 是 创建 一 个 controller 类 的 实例 。 


要 部 署 算法 ， 必 须 在 controller 类 中 定义 设置 方法 和 获取 方法 。 通 常 它们 只 是 简单 地 调用 
相关 类 中 对 应 的 方法 。 这 个 例子 只 用 了 一 个 算法 类 ， 但 实际 开发 中 通常 会 包含 多 个 类 。 因 此 ， 
Controller 的 作用 就 是 将 请 求 重新 定向 到 相关 的 类 (在 面向 对 象 的 编程 中 ， 这 种 机 制 称 为 委 
托 ), 控制 需 模 式 的 另 一 个 目的 是 简化 程序 中 类 的 接口 。 作 为 这 种 简化 的 例子 , set TargetColor 
和 getTargetColor 方 法 都 使 用 uchar 来 设置 和 获取 有 关 颜 色 , 这 样 可 以 让 程序 开发 者 不 需要 和 掌 
握 cv: :Vec3p 类 的 全 部 细节 。 


在 一 些 情况 下 ， 控 制 器 也 可 以 准备 应 用 开发 者 提供 的 数据 。 例 如 setInputImage 方 法 会 根 
据 给 定 的 文件 名 ,把 图 像 装 载 进 内 存 。 根 据 装载 操作 成 功 与 否 , 方法 返回 true 或 false (这 时 也 
会 发 出 一 个 异常 提示 )。 


最 后 ， 用 process 方 法 运行 算法 。 但 是 这 个 方法 并 不 返回 结果 。 要 想得到 最 新 的 处 理 结 
必须 调用 男 一 个 方法 。 


现在 我 们 只 需要 在 对 话 杠 类 ( 这 里 称 为 colordetect ) 中 添加 一 个 colorDetect- 
Controller 成 员 变 量 ， 即 可 创建 一 个 最 基本 的 使 用 了 控制 器 的 对 话 框 程序 了 。 如 果 使 用 MS 
Visual Studio， 则 Open button 按 钮 在 MFC 对 话 框 中 的 消息 处 理 函 数 如 下 : 

// “Open” 按 钮 的 消息 处 理 函 数 


void Onopen () 






































// 选择 bmp 或 jpg 类 型 文件 的 MFC 对 话 框 
CFileDialog dlg (TRUE, _T("*.bmp"), NULL, 
OFN_FILEMUSTEXIST|OFN_PATHMUSTEXIST|OFN_HIDEREADONLY, 
_T("image files (*.bmp; *.jpg) 

I*.bmp;*.jpg|lAll Files (*.*)|*.*||"),NULL); 


dlg.m ofn.lpstrTitle= _T("Open Image"); 


// 如 果 选 中 了 一 个 文件 名 
if (dlg.DoModal() == IDOK) { 
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// 取得 选 定 文件 名 的 完整 路 径 
std::string filename= dlg.GetPathName (); 


// 设置 并 显示 输入 的 图 像 
colordetect.setIinputImage (filename); 
cv::imshow("Input Image",colordetect.getInpu 





} 
第 二 个 按钮 执行 Process 方 法 并 显示 结果 : 


//“Process” 按 钮 的 回调 方法 
void OnProcess () 
{ 
// 这 里 目标 颜色 采用 硬 编码 
colordaetect .setTargetColor (130,190,230); 
// 处 理 输入 图 像 并 显示 结果 
colordetect .process () ; 
cvV: :imshow("Output Result" ,colordetect .getLastR 


} 








tIimage()); 


esult ()); 


如 果 程 序 更 加 复杂 ， 显 然 会 有 更 多 的 对 话 框 来 让 用 户 选择 算法 的 参数 。 


3.3.4 扩展 阅读 








在 开发 应 用 程序 时 一 定 要 花 时 间 规划 一 下 架构 , 以 方便 日 后 维护 和 升级 。 有 很 多 现成 的 架构 


模式 ， 对 优化 架构 很 有 帮助 。 
MVC 架 构 














模型 -视图 -控制 器 ( MVC ) 架构 的 目的 是 生成 一 个 能 把 程序 逻辑 与 用 户 接口 清晰 地 隔离 的 











旦 序 ， 正 如 它 的 名 称 所 示 ，MVC 模 式 主要 包括 三 个 组 件 。 


模型 存放 与 应 用 程序 有 关 的 信息 。 它 控制 着 程序 处 理 的 所 有 数据 ， 当 产生 新 数据 时 ， 它 会 通 
控制 器 (通常 是 异步 地 )， 然 后 控制 器 通知 视图 显示 新 的 结果 。 模 型 通常 会 整合 多 个 算法 ， 可 























豆 冶 


是 通过 策略 模式 实现 的 。 所 有 这 些 算 法 是 模型 的 一 部 分 。 














视图 相当 于 用 户 接口 。 它 由 不 同 的 窗口 组 成 , 窗口 可 向 月 





上 户 展示 数据 并 且 人 允许 用 户 与 程序 交 





互 。 视 图 的 功能 之 一 ,就 是 把 用 户 发 出 的 命令 发 送 给 控制 侨 。 当 有 新 数据 时 ,视图 会 刷新 以 显示 


新 的 信息 。 














控制 器 是 连接 视图 和 模型 的 模块 。 它 从 视图 接收 请 求 ， 并 转发 给 模型 中 对 应 的 方法 。 模 型 状 
态 变化 时 会 通知 控制 器 ， 然 后 控制 器 通知 视图 进行 刷新 ， 以 显示 新 的 信息 。 


在 MVC 架 构 下 ， 用 户 接口 调用 控制 器 的 方法 。 接 口 不 包含 任何 程序 数据 ， 也 不 实现 任何 程 
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序 逻 辑 ， 因 此 接口 很 容易 进行 百 换 。 用 户 界面 设计 者 不 需要 理解 程序 的 功能 。 反 之 ,修改 程序 逻 


辑 时 也 不 需要 通知 界面 设计 者 。 


3.4 ”转换 颜色 表示 法 























前 面 几 节 介绍 了 如 何 把 算法 封装 进 类 ， 这 样 我 们 就 能 通过 简单 的 接口 使 用 算法 。 通 过 封装 ， 
可 以 做 到 在 修改 一 个 算法 的 实现 方法 时 不 影响 使 用 它 的 类 。 下 一 节 将 阐明 这 个 原理 , 即 为 了 使 用 











另 一 个 色彩 空间 而 修改 colorDetector 类 中 的 算法 








3.4.1 准备 工作 




















RGB 色彩 空间 的 基础 是 对 二 加 型 三 原色 ( 红 、 绿 、 蓝 ) 的 应 用 。 之 所 以 选择 它们 ， 是 因为 把 























。 本 节 也 会 介绍 OpenCV 中 的 颜色 转换 。 

















它们 组 合 起 来 后 可 以 产生 色 域 很 宽 的 各 种 颜色 。 实际 上 ,人 类 的 视觉 系统 也 是 基于 对 三 原色 的 感 





知 ， 因 为 视 锥 细胞 的 灵敏 度 位 于 红 绿 蓝 的 光谱 周围 。 




















这 通常 是 数字 成 像 中 默认 的 色彩 空间 ， 因 为 





这 就 是 人 类 看 数字 图 像 的 方式 。 捕捉 到 的 光线 穿 过 红 绿 蓝 三 种 滤波 器 ,并 且 在 数字 图 像 中 会 对 红 




















绿 蓝 三 个 通道 做 校正 , 当 三 种 颜色 强度 相同 时 就 会 取得 灰 度 , 即 从 黑色 ( 0,0,0 ) 到 白色 (255, 255， 


255 )。 








但 是 , 利用 RGB 色彩 空间 计算 颜色 之 间 的 差距 ， 


并 不 是 衡量 两 个 颜色 相似 度 的 最 好 方式 。 实 








际 上 RGB 并 不 是 感知 均匀 的 色彩 空间 。 就 是 说 ， 两 种 具有 一 定 差距 的 颜色 可 能 看 起 来 非常 接近 ， 








而 另外 两 种 具有 同样 差距 的 颜色 看 起 来 却 差别 很 大 。 
为 解决 这 个 问题 , 引入 了 一 些 具有 感知 均匀 特 仅 








的 颜色 表示 法 。CIE L*a*b* 就 是 一 种 这 样 的 


颜色 模型 。 把 图 像 转换 到 这 种 表示 法 后 , 我 们 就 可 以 真正 地 使 用 图 像 像素 与 目标 颜色 之 间 的 欧 几 
里 德 距离 ， 来 度量 颜色 之 间 的 视觉 相似 度 。 本 节 介 绍 如 何 修 改 前 面 的 程序 ， 以 适应 CIE L*a*b*。 


3.4.2 ”如 何 实现 





输入 图 像 转换 成 CIE L*a*b* 颜 色 空 间 : 








使 用 OpenCV 函 数 cv: :cvtcolor 可 以 很 容易 地 转换 图 像 的 色彩 空间 。 在 过 程 方法 开始 时 把 


cvV: :Mat ColorDetector: :Drocess (const cv::Mat &image) { 


// 必要 时 重新 分 配 二 值 图 像 
// 与 输入 图 像 的 尺寸 相同， 但 用 单 通道 


result.create(image.rows,image.cols,CV_8U); 


// 转换 成 Lab 色 彩 空 间 


Cv::CvtColor (image, converted, CV_BGR2Lab); 


// 取得 转换 图 像 的 迭代 器 
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Cv::Mat_<cv: :Vec3b>::iterator it= 
converted.begin<cv: :Vec3b>(); 
Cv::Mat_<cv::Vec3b>::iterator itend= 
converted.end<cv: :Vec3b>(); 
// 取得 输出 图 像 的 选 代 器 


cv::Mat_<uchar>::iterator itout= result.begin<uchar>(); 


// 针对 每 个 像素 
for ( ; it!= itend; ++it, ++itout) { 











转换 后 的 变量 包含 颜色 转换 后 的 图 像 ， 被 定义 为 类 colorDetector 的 一 个 属性 : 
class ColorDetector { 
private: 


// 颜色 转换 后 的 图 像 


cv::Mat converted; 


输入 的 目标 颜色 也 需要 进行 转换 , 通过 创建 一 个 只 有 单个 像素 的 临时 图 像 ， 可 以 实现 这 种 转 


换 。 注意 , 需要 让 函数 保持 与 前 面 儿 闻 中 一 样 的 签名 , 即 用 户 提供 的 目标 颜色 仍然 是 RGB 格式 的 : 


L 


3 


怕 





// 设置 需要 检测 的 颜色 
voidq setTargetColor (unsigned char red, 
unsigned char green, unsigned char blue) { 


// 临时 的 单 像素 图 像 
uviaMat, tmp (lL CV BUC3)s 
tmp.at<cv: :Vec3b>(0,0)= cv::Vec3b(blue, green, red); 





// 目标 颜色 转换 成 Lab 色 彩 空 间 
他 ECOTLGFTEITO tmp, CV BGR2Lal}: 


target= tmp.at<cv: :Vec3b>(0,0); 
3 


在 上 一 节 的 程序 中 使 用 这 个 修改 过 的 类 ， 它 就 会 在 检测 符合 目标 颜色 的 像素 时 ,使 用 CIE 
*a*b* 颜 色 模型 。 
.4.3 ”实现 原理 


在 将 图 像 从 一 个 色彩 空间 转换 到 另 一 个 色彩 空间 时 , 会 在 每 个 输入 像素 上 做 一 个 线性 或 非 线 
的 转换 ， 以 得 到 输出 像素 。 输 出 图 像 的 像素 类 型 与 输入 图 像 是 一 致 的 。 即 使 你 经 常 使 用 8 位 像 






































素 ， 也 可 以 用 浮 点 数 图 像 (这 时 通常 假定 像素 值 的 范围 是 0~1.0 ) 或 整数 图 像 ( 像素 值 范围 通常 


























是 0~65535 ) 进行 颜色 转换 。 但 是 ,实际 的 像素 值 范围 取决 于 指定 的 色彩 空间 和 目标 图 像 的 类 型 。 
例如 ，CIE L*a*b* 色 彩 空间 中 的 通道 表示 每 个 像素 的 亮度 ， 范 围 是 0~100; 在 使 用 8 位 图 像 时 ， 





























它 的 范围 就 会 调整 为 0~255。a 和 b 通 道 表 示 色 度 组 件 。 这 些 通 道 包含 了 像素 的 颜色 信息 ， 与 亮度 
无 关 。 它 们 的 值 的 范围 是 -127~127; 对 于 8 位 图 像 ， 为 了 适合 0 到 255 的 区 间 ， 每 个 值 会 加 上 128。 
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但 是 要 注意 ， 进 行 8 位 的 颜色 转换 时 会 产生 舍 人 误差， 因此 转换 过 程 并 不 是 完全 可 逆 的 。 


大 多 数 常用 的 色彩 空间 都 是 可 以 转换 的 。 你 只 需要 在 OpenCV 函 数 中 指定 正确 的 色彩 空间 转 
换代 码 ( 对 于 CIE L*a*b*， 代 码 为 CV_BGR2Lab )， 其 中 就 有 YCrCb， 它 是 在 JPEG 压 缩 中 使 用 的 
色彩 空间 ,把 色彩 空间 从 BGR 转 换 成 YCrCb 的 代码 为 Cv_BGR2YCrcp。 注 意 ,所 有 涉及 三 原色 ( 红 、 
绿 、 蓝 ) 的 转换 过 程 ， 都 可 以 用 RGB 和 BGR 的 次 序 。 


CIE Lu*v* 是 另 一 种 感知 均匀 的 色彩 空间 。 从 BGR 转 换 成 CIE L*u*v*， 可 使 用 代码 
CV_BGR2Luv。 对 于 亮度 通道 ，L*a*b* 和 Lx*xu*v* 都 使 用 同样 的 转换 公式 ,但 对 色 度 通道 则 使 用 不 
同 的 表示 法 。 另 外 , 为 了 实现 视觉 感知 上 的 均匀 ,这 两 种 色彩 空间 都 扭曲 了 RGB 的 颜色 范围 ,所 
以 这 些 转换 过 程 都 是 非 线 性 的 ( 因此 它们 的 计算 量 很 大 )。 

此 外 还 有 CIE XYZ 色 彩 空间 ( 用 代码 cv_BGR2XYZ 表 示 )。 它 是 一 种 标准 的 色彩 空间 ,用 与 设 
备 无 关 的 方式 表示 任何 可 见 颜色 。 在 L*a*b* 和 Lx*u*v* 色 彩 空间 的 计算 中 ， 用 XYZ 色 彩 空间 作为 
一 种 中 间 表 示 法 。RGB 与 XYZ 之 间 的 转换 是 线性 的 。 还 有 一 点 非常 有 趣 ， 就 是 Y 通 道 对 应 着 图 像 
的 灰 度 版 本 。 

HSV 和 HLS 这 两 种 色彩 空间 很 有 意思 , 它们 把 颜色 分 解 成 加 值 的 色调 和 饱和 度 组 件 或 亮度 组 
件 。 人 类 用 这 种 方式 来 描述 颜色 会 更 加 自然 。 

你 可 以 把 彩色 图 像 转换 成 灰 度 图 像 ， 输 出 是 一 个 单 通道 图 像 : 

CVv::CvtColor(color, gray, CV_BGR2Gray); 


也 可 以 进行 反 向 的 转换 , 但 是 那样 得 到 彩色 图 像 的 三 个 通道 是 相同 的 , 都 是 灰 度 图 像 中 对 应 
的 值 。 












































3.4.4 ”参阅 


口 4.6 节 使 用 了 HSV 色 彩 空间 来 寻找 图 像 中 的 目标 。 

口 关于 色彩 空间 理论 的 参考 资料 有 很 多 ， 其 中 有 一 套 完整 的 资料 : The Structure and 
Properties of Color Spaces and the Representation of Color Images (了 上 . Dubois 若 ，Morgan & 
Claypool，2009 年 出 版 )。 
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本 章 我 们 处 理 了 图 像 的 颜色 , 使 用 了 不 同 的 色彩 空间 , 并 且 设 法 识别 出 图 像 中 具有 特定 颜色 
区域 。 例 如 ，RGB 是 一 种 被 广泛 接受 的 色彩 空间 ,被 视 为 一 种 非常 有 效 的 表示 法 ,用 于 在 电子 
成 像 系 统 中 采集 和 显示 颜色 。 但 是 这 种 表示 法 并 不 非常 直观 , 它 并 不 符合 人 类 对 于 颜色 的 感知 方 
式 。 我 们 谈论 颜色 时 ， 总 会 提 到 色彩 、 亮 度 或 彩 度 ( 即 表 示 该 颜色 是 鲜艳 的 还 是 柔和 的 ) 直觉 
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色彩 空间 基于 色调 、 饱 和 度 、 亮 度 的 概念 , 可 以 让 人 们 用 更 直观 的 属性 来 描述 颜色 。 本 节 我 们 把 
色调 、 饱 和 度 、 亮 度 作为 描述 颜色 的 方法 ， 并 探讨 这 些 概念 。 


3.5.1 如 何 实现 


上 一 节 我 们 讲 过 , 可 用 cv: :cvtcolor 函 数 把 BGR 图 像 转换 成 直觉 色彩 空间 。 这 里 我 们 使 用 
转换 代码 CV_BGR2HSV: 
// 转换 成 HSV 色 彩 空 间 


cv::Mat hsv; 
Cv::CVvtColor (image, hsv, CV_BGR2HSV); 


我 们 可 以 用 代码 cv_HSV2BGR 把 图 像 转 换 回 BGR 色 彩 空间 。 通 过 把 图 像 的 通道 分 割 到 三 个 独 
立 的 图 像 中 ,我 们 可 以 直观 地 看 到 每 一 种 HSV 组 件 。 方 法 如 下 : 

// 把 三 个 通道 分 割 进 三 个 图 像 中 

std: :vector<cv::Mat> channels; 

cv::split (hsv,channels); 

// channels[0] 是 色调 


// channels[1] 是 饱和 度 
// channels[2] 是 亮度 


因为 处 理 的 是 8 位 图 像 ，OpenCV 会 把 通道 值 的 范围 重新 调节 为 0~255 (色调 除外 ， 色 调 的 范 
围 被 调节 为 0~180， 下面 会 解释 原因 )。 这 个 方法 非常 实用 ， 因 为 我 们 可 以 把 这 儿 个 通道 作为 灰 度 
图 像 进 行 显示 。 城 堡 图 的 亮度 通道 显示 如 下 : 





















































全 Value 到 























该 图 像 的 饱和 度 通 道 显 示 如 下 : 














加 Saturation 一 














最 后 是 该 图 像 的 色调 通道 : 





[五 Hue 一 口 














下 一 节 会 对 这 几 个 图 像 进 行 解释 。 


3.5.2 ”实现 原理 


之 所 以 要 引入 直觉 色彩 空间 的 概念 , 是 因为 人 类 倾向 于 自然 地 组 织 各 种 颜色 ,而 直觉 色彩 空 
间 与 这 种 方式 相 吻合 。 实 际 上 ， 人 类 喜欢 用 色彩 、 彩 度 、 亮 度 等 直观 的 属性 来 描述 颜色 ， 而 大 多 
数 直 觉 色 彩 空间 正 是 基于 这 三 种 属性 。 色 调 (hue ) 表示 主 色 。 我 们 使 用 的 颜色 名 称 ( 例如 绿色 、 
黄色 和 红色 ) 就 对 应 了 不 同 的 色调 值 ; 饱和 度 (saturation ) 表示 颜色 的 鲜艳 程度 。 柔 和 的 颜色 饱 
和 度 较 低 ， 而 彩虹 的 颜色 饱和 度 很 高 ; 最 后 ， 亮 度 ( brightness ) 是 一 个 主观 的 属性 ， 表 示 某 种 颜 
色 的 光亮 程度 。 其 他 直觉 色彩 空间 使 用 颜色 明度 ( value ) 或 颜色 亮度 (lightness ) 的 概念 描述 有 
关 颜 色 的 强度 。 
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人 们 利用 这 些 颜 色 概念 , 尽 可 能 地 模拟 人 类 对 颜色 的 直观 感知 。 因此, 它们 没有 标准 的 定义 。 
从 字面 上 看 ， 色 调 、 饱 和 度 、 亮 度 都 有 多 种 不 同 的 定义 和 公式 。OpenCV 所 建议 的 两 种 直觉 色彩 
空间 的 实现 是 HSV 和 HLS 色 彩 空间 。 它 们 的 转换 公式 略 有 不 同 ， 但 是 结果 非常 类 似 。 


亮度 成 分 可 能 是 最 容易 解释 的 。 在 OpenCV 对 HSV 的 实现 中 ， 它 被 定义 为 三 个 BGR 成 分 中 的 
最 大 值 ， 以 非常 简化 的 方式 实现 了 亮度 的 概念 。 为 了 让 定义 更 符合 人 类 视觉 系统 ， 你 应 该 使 用 


L*a*b* 或 L*u*v* 色 彩 空间 的 通道 。 


OpenCV 用 一 个 公式 来 计算 饱和 度 ， 该 公式 基于 BGR 组 件 的 最 小 值 和 最 大 值 : 





















































oe max(R,G,B)—min(R,G,B) 
max(R,G,B) 














其 原理 是 : 灰 度 颜色 所 包含 的 R、G 和 B 成 分 是 相等 的 , 它 相 当 于 一 种 极 不 饱和 的 颜色 ， 因 此 
它 的 饱和 度 是 0 (饱和 度 是 一 个 从 0~1.0 的 值 ) 对 于 8 位 图 像 ， 饱 和 度 被 调节 成 一 个 从 0 到 255 的 
值 ， 并 且 作 为 灰 度 图 像 显 示 的 时 候 , 较 亮 的 区 域 对 应 的 颜色 具有 较 高 的 饱和 度 。 例 如 在 前 面 的 饮 
和 度 图 片 中 ， 水 的 蓝 色 比 天 空 的 柔和 浅 蓝 色 的 饱和 度 高 ， 这 和 我 们 的 推断 是 一 致 的 。 根 据 定义 ， 
各 种 灰色 阴影 的 饱和 度 都 是 0 ( 因为 它们 的 三 种 BGR 组 件 是 相等 的 )。 在 城 保 的 屋顶 能 看 到 这 种 现 
象 ， 因 为 屋顶 是 深 灰 色 石头 组 成 的 。 最 后 ,在 饱和 度 图 像 中 可 以 看 到 一 些 白色 的 斑点 ， 所 处 位 置 
对 应 原始 图 像 中 非常 暗 的 区 域 。 这 是 由 饱和 度 的 定义 引起 的 。 饱和 度 只 计算 BGR 中 最 大 值 和 最 小 
值 的 相对 差距 ， 因 此 像 (1,0,0 ) 这 样 的 组 合 就 会 得 到 饱和 度 1.0, 尽管 这 个 颜色 看 起 来 是 黑色 的 。 
因此 黑色 区 域 中 计算 得 到 的 饱和 度 是 不 可 靠 的 ， 没 有 参考 价值 。 


颜色 的 色调 通常 用 0~360 的 角度 来 表示 ， 其 中 红色 是 0 度 。 对 于 8 位 图 像 ，OpenCV 把 角度 除 
以 2, 以 适合 单字 节 的 存储 范围 。 因此, 每 个 色调 值 对 应 指定 颜色 的 色彩 , 与 亮度 和 饱和 度 无 关 。 
例如 天 空 和 水 的 色调 是 一 样 的 ， 约 为 200 度 (强度 100 )， 对 应 色 度 为 蓝 色 ; 背景 树林 的 色调 约 为 
90 度 ， 对 应 色 度 为 绿色 。 有 一 点 要 特别 注意 ， 如 果 颜 色 的 饱和 度 很 低 ， 它 计算 出 来 的 色调 就 不 
可 靠 。 


参见 下 页 图 ( 左 )，HSB 色 彩 空间 通常 用 一 个 圆锥 体 来 表示 ， 圆 锥 体内 部 每 个 点 代表 一 种 特 
定 的 颜色 。 角 度 位 置 表 示 颜 色 的 色调 ， 到 中 轴线 的 距离 表示 饱和 度 ， 高 度 表示 亮度 。 圆 锥 体 的 项 
点 表示 黑色 ， 它 的 色调 和 饱和 度 是 没有 意义 的 。 


使 用 HSV 的 值 可 以 生成 一 些 非常 有 趣 的 效果 。 一些 用 照片 编辑 软件 生成 的 色彩 特效 ， 就 是 用 
这 个 色彩 空间 实现 的 。 例 如 你 可 以 修改 一 个 图 像 ， 把 它 的 所 有 像素 设置 为 一 个 固定 的 亮度 ,但 不 
改变 色调 和 饱和 度 。 可 以 这 样 实现 : 

// 转换 成 HSV 色 彩 空间 

cv::Mat hsv; 


CVv::CVvtColor (image, hsv, CV_BGR2HSV); 
// 分 割 3 个 通道 到 3 个 图 像 中 


































































































































































































std: :Vector<cV: :Mat> channels; 
cv::split (hsv,channels); 

// 所 有 像素 的 颜色 亮度 通道 将 变 成 255 
channels[2]= 255; 

// 重新 合并 通道 

cv::merge (channels,hsv); 

// 转换 回 BGR 

Cv::Mat newlimage; 

CVv::CcvtColor (hsv,newIimage,CV_HSV2BGR); 


得 到 的 结果 如 下 图 ( 右 ) 所 示 ， 看 起 来 像 是 一 幅 绘画 作品 〈 可 通过 本 书 的 图 片 集 查看 彩色 Sd 





























图 像 ): 








Fixed Value Image = 

















3.5.3 扩展 阅读 
在 搜寻 特定 颜色 的 物体 时 ，HSV 色 彩 空 间 也 是 非常 实用 的 。 
颜色 用 于 检测 : 肤色 检测 


在 对 特定 物体 做 初步 检测 时 , 颜色 信息 非常 有 用 。 例如 在 辅助 驾驶 程序 中 检测 路 标 , 就 要 凭 
借 标准 路 标的 颜色 快速 地 提取 出 可 能 是 路 标的 信息 。 男 一 个 例子 是 检测 皮肤 的 颜色 , 检测 到 的 皮 
肤 区 域 可 作为 图 像 中 有 人 存在 的 标志 。 在 手势 识别 中 经 常 使 用 这 个 方法 , 用 肤色 检测 来 确定 手 的 
位 置 。 
通常 来 说 , 为 了 用 颜色 来 检测 目标 , 首先 需要 收集 一 个 存储 有 大 量 图 像样 本 的 数据 库 , 每 个 
样本 中 包含 从 不 同 观察 条 件 下 捕捉 到 的 目标 , 作为 定义 分 类 器 的 参数 。 你 还 需要 选择 一 种 用 于 分 
类 的 颜色 表示 法 。 肤 色 检 测 领 域 的 大 量 研 究 已 经 表明 , 来 自 不 同人 种 的 人 群 的 皮肤 颜色 , 可 以 在 
色调 -饱和 度 色 彩 空间 中 很 好 地 归 类 。 因 此 ， 在 后 面 的 图 像 中 ,我 们 将 只 使 用 色调 和 饱和 度 值 来 
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识别 肤色 〈 可 通过 本 书 的 图 片 集 查 看 彩色 图 像 ， 男 见 彩 图 4 ): 

















因此 我 们 定义 了 一 个 基于 数值 区 间 ( 最 小 和 最 大 色调 、 最 小 和 最 大 饱和 度 ) 的 函数 ,把 图 像 
中 的 像素 分 为 皮肤 和 非 皮肤 两 类 : 


void detectHScolor(const cv::Mat& image，// 输入 图 像 
double minHue，double maxHue， // 色调 区 间 
double minSat，double maxSat， // 饱和 度 区 间 
cv::Mat& mask) { // 输出 掩 码 


// 转换 到 HSV 空 间 
Gv.rMat Devy 
Cv::CvtColor (image, hsv, CV_BGR2HSV); 


// 分 割 3 个 通道 ， 并 存 进 3 个 图 像 
std: :Vector<CcV: :Mat> channels; 
cv::split (hsv, channels); 

// channels[0] 是 色调 

// channels[1] 是 饱和 度 

// channels[2] 是 亮度 


// 色调 掩 码 

cv::Mat mask1; // 小 于 maxHue 
cv::threshold(channels[0], maskl, maxHue, 255, 
cv: :THRESH_BINARY_INV) ; 

cv::Mat mask2; // 大 于 minHue 
cv::threshold(channels[0], mask2, minHue, 255, 
Cv: :THRESH_BINARY); 


cv::Mat hueMask; // 色调 掩 码 

if (minHue < maxHue) 
hueMask = maskl & mask2; 

else // 如 果 区 间 穿 越 0 度 中 轴线 


hueMask = mask1l | mask2; 


// 饱和 度 掩 码 

// 小 于 maxSat 

cv::threshold(channels[1], maskl, maxSat, 255, 
cv: :THRESH_BINARY_INV); 
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// 大 于 minSat 
cv::threshold(channels[1], mask2, minSat, 255, 
Cv: :THRESH_BINARY); 


cv::Mat satMask; // 饱和 度 掩 码 
satMask = maskl & mask2; 


// 组 合 掩 码 
mask = hueMask&satMask; 


} 

在 处 理 时 有 了 大 量 的 皮肤 ( 以 及 非 皮肤 ) 样本 ,我 们 可 以 使 用 概率 方法 比较 在 皮肤 样本 中 和 | 
在 非 皮肤 样本 中 发 现 指定 颜色 的 可 能 性 。 此 处 , 我 们 依据 经 验 定义 一 个 合理 的 色调 -饱和 度 区 间 ， 
用 于 这 里 的 测试 图 像 ( 记 住 ，8 位 版 本 的 色调 在 0 到 180 之 间 ， 侈 和 度 在 0 到 255 之 间 ); 

















// 检测 肤色 

cv::Mat mask; 

detectHScolor (image, 
160，10，// 色调 从 320 度 到 20 度 
25，166，// 饱和 度 从 ~0.1 到 0.65 
mask); 





// 显示 使 用 掩 码 后 的 图 像 
cv::Mat detected(image.size(), CV_8UC3, cv::Scalar(0, 0, 0)); 
image.copyTo (detected, mask); 


得 到 下 面 的 检测 图 像 ( 男 见 彩 图 5 ): 











Detection result 

















注意 , 为 了 简化 , 我 们 在 检测 中 没有 考虑 颜色 的 饱和 度 。 实 际 上 ， 排 除 较 高 饱和 度 的 颜色 可 
以 降低 把 明亮 的 淡 红 色 误 认为 皮肤 的 可 能 性 。 显然 , 对 皮肤 颜色 进行 可 靠 和 准确 地 检测 需要 更 加 
精确 的 基于 大 批量 皮肤 样本 的 分 析 。 并 且 对 不 同 的 图 像 进行 检测 ， 很 难保 证 都 有 好 的 效果 。 这 是 
因为 摄影 时 影响 彩色 再 现 的 因素 很 多 ,如 白 平衡 和 光照 条 件 等 。 尽管 如 此 ， 用 本 童 的 方法 ,只 使 
用 色调 信息 做 初步 的 检测 ， 我 们 也 能 得 到 一 个 合理 的 结 
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本 章 包括 以 下 内 容 : 


口 计算 图 像 直 方 图 ; 

口 利用 查找 表 修改 图 像 外 观 ; 

口 直方 图 均衡 化 ; 

口 反 向 投影 直方 图 检测 特定 图 像 内 容 ; 
口 均值 平移 算法 查找 目标 ; 

口 比较 直方 图 搜索 相似 图 像 ; 

口 用 积分 图 像 统计 像素 。 



































图 像 是 由 不 同 数 值 ( 颜色 ) 的 像素 构成 的 , 像素 值 在 整 幅 图 像 中 的 分 布 情况 是 该 图 像 的 一 个 
重要 属性 。 本 章 介绍 图 像 直 方 图 的 概念 ， 你 将 学 会 计算 直方 图 、 用 直方 图 修改 图 像 的 外 观 ， 还 可 
以 用 直方 图 来 标识 图 像 的 内 容 ， 在 图 像 中 检测 特定 物体 或 纹理 。 本 章 将 讲解 其 中 的 部 分 技术 。 




















4.2 ”计算 图 像 直 方 图 


图 像 申 像素 构成 ,每 个 像素 有 不 同 的 数值 。 例 如 ， 在 单 通 道 灰 度 图 像 中 ,每 个 像素 都 有 一 个 
0 (黑色 ) ~255 ( 白色 ) 的 数值 。 对 于 每 个 灰 度 ， 都 有 不 同 数量 的 像素 分 布 在 图 像 内 ， 具 体 取决 
于 图 片 内 容 。 



































直方 图 是 一 个 简单 的 表格 ， 表 示 一 个 图 像 ( 有 时 是 一 组 图 像 ) 中 具有 某 个 值 的 像素 的 数量 。 
因此 灰 度 图 像 的 直方 图 有 256 个 项 目 ， 也 叫 箱子 〈bin )。0 号 箱子 提供 值 为 0 的 像素 的 数量 ，1 号 箱 
子 提供 值 为 1 的 像素 的 数量 ， 等 等 。 很 明显 ， 如 果 把 直方 图 的 所 有 箱子 进行 累加 ， 得 到 的 结果 就 
是 像素 的 总 数 。 你 也 可 以 把 直方 图 归 一 化 ， 即 所 有 箱子 的 累加 和 等 于 1。 这 时 每 个 箱子 的 数值 表 
示 对 应 的 像素 数量 占 总 数 的 百分比 。 
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4.2.1 准备 工作 
本 章 的 前 三 节 会 用 到 这 个 图 像 ; 


ep roooitdr 和 or 








4.2.2 ”如 何 实现 

要 在 OpenCV 中 计算 直方 图 ， 可 简单 地 调用 cv: :calcHist 了 水 数 。 这 是 一 个 通用 的 直方 图 计 
算 函 数 ， 可 处 理 包 含 任何 值 类 型 和 范围 的 多 通道 图 像 。 为 了 简化 ,这 里 我 们 指定 一 个 专门 用 于 处 
理 单 通道 灰 度 图 像 的 类 。cv: :calcHist 函 数 非常 灵活 ， 在 处 理 其 他 类 型 的 图 像 时 都 可 以 直接 使 
用 它 。 下 一 节 会 解释 它 的 每 个 参数 。 

现在 ， 这 个 专用 的 类 如 下 所 示 : 

// 创建 灰 度 图 像 的 直方 图 


class HistogramlD { 








private: 
int histSize[1]; // 直方 图 中 箱子 的 数量 
float hranges{[2]; // 值 范围 
const float* ranges[1]; // 值 范围 的 指针 
int channels[1]; // 要 检查 的 通道 数量 
public: 


Histogram1lD() { 


// 准备 一 维 直方 图 的 默认 参数 

histSize[0]= 256; // 256 个 箱子 

hranges[0]= 0.0;  // 从 0 开始 ( 含 ) 

hranges[1]= 256.0; // 到 256 (不 含 ) 

ranges[0]= hranges; 

channels[0]= 0; // 先 关注 通道 0 
. 


定义 好 成 员 变 量 后 ， 就 可 以 用 下 面 的 方法 计算 灰 度 直 方 图 了 : 
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// 计算 一 维 直方 图 


Cv::Mat getHistogram(const cv::Mat &image) { 
cv::Mat hist; 


// 计算 直方 图 
cv::calcHist (&image, 











二 // 仅 为 一 个 图 像 的 直方 图 
channels， // 使 用 的 通道 
cv::Mat()，// 不 使 用 掩 码 

hist, // 作为 结果 的 直方 图 

i // 这 是 一 维 的 直方 图 
histSize， // 箱子 数量 

ranges // 像素 值 的 范围 


); 


return hist; 


} 
现在 程序 只 需要 打开 一 个 图 像 ,创建 一 个 Histogram1D 实 例 ,然后 调用 getHistogram 方 法 : 
// 读 取 输入 的 图 像 


cv::Mat image= cv::imread("group.jpg", 
0); // 以 黑白 方式 打开 





// 直方 图 对 象 
Histogram1D h; 





// 计算 直方 图 

cv::Mat histo= h.getHistogram(image); 

这 里 的 histo 对 象 是 一 个 一 维 数组 ， 包 含 256 个 项 目 。 因 此 只 需 遍 历 这 个 数组 ， 就 可 以 读 取 
每 个 箱子 : 

// 循环 遍历 每 个 箱子 

for (int i=0; i<256; i++) 


GOUE -ee Va 
histo.at<float>(i) << endl; 


使 用 本 章 开 始 时 使 用 的 图 像 ， 部 分 显示 的 值 如 下 所 示 : 








Value 7 = 159 
Value 8 208 
Value 9 271 
Value 10 = 288 
Value LL sr 840 
Value 12 = 418 
Value 13 = 432 
Value 14 = 472 
Value 15 = 525 
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然 ， 很 难 从 这 一 系列 数值 中 得 到 任何 直观 的 意义 。 因 此 比较 实用 的 做 法 是 以 函数 的 方式 显 
示 直 方 图， 例如 用 柱状 图 。 用 下 面 的 几 个 方法 可 创建 这 种 图 形 : 
// 计算 一 维 直 方 图 ， 并 返回 它 的 图 像 


cv::Mat getHistogramImage (const cv::Mat &image, 
int Zoom=1){ 














// 首先 计算 直方 图 


cv::Mat hist= getHistogram(image); 





// 创建 图 像 


return getImageOfHistogram(hist, zoom); 


} 


// 创建 表示 一 个 直方 图 的 图 像 (静态 方法 ) 
static cv::Mat getImageOfHistogram 
(const cv::Mat &hist, int zoom) { 














// 取得 箱子 值 的 最 大 值 和 最 小 值 

double maxVal = 0; 

double minVval = 0; 

cv::minMaxLoc (hist, &minVal, &maxVal, 0, 0); 


// 取得 直方 图 的 大 小 


int histSize = hist.rows; 


// 用 于 显示 直方 图 的 方形 图 像 
cv::Mat histImg (histSize*zoom, 
histSize*zoom, CV_8U, cv::Scalar (255)); 


// 设置 最 高 点 为 90% ( 即 图 像 高 度 ) 的 箱子 个 数 
int hpt = static cast<int>(0.9*histSize); 





// 为 每 个 箱子 画 重 直线 
for (int h = 0; h < histSize; h++) { 





float pbinVal = hist.at<float>(h); 
if (binVal>0) { 
int intensity = static cast<int>(binVal*hpt / maxVal); 
cv::line(histImg, cv::Point (h*zoom, histSize*zoom), 
cv::Point (h*zoom, (histSize - intensity)*zoom), 
cv::Scalar (0), zoom); 


} 


return histImg; 


} 
使 用 getImageofHistogram 方 法 可 以 得 到 直方 图 图 像 。 它 用 线条 画 成 , 以 柱状 图 形式 展现 : 
// 以 图 像 形式 显示 直方 图 


cv: :namedWindow ("Histogram"); 
cv::imshow ("Histogram", 
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h.getHistogramImage (image) ) ; 


得 到 的 结果 如 下 图 : 





Histogram EB 














从 上 面 图 形 化 的 直方 图 可 以 看 出 , 在 中 等 灰 度 值 处 有 一 个 大 的 尖峰 , 并 且 比 中 等 值 更 黑 的 像 
素数 量 很 大 。 巧合 的 是 ， 这 两 部 分 像素 分 别 对 应 了 图 像 的 背景 和 前 景 。 要 验证 这 点 ,可 以 在 两 部 
分 的 汇合 处 进行 浆 值 化 处 理 。OpenCV 中 的 cv: :threshold 困 数 可 以 实现 这 个 功能 。 上 一 章 介绍 
过 , 它 是 一 个 很 实用 的 函数 。 我们 取 直 方 图 中 在 升 高 为 尖峰 之 前 的 最 小 值 的 位 置 ( 灰 度 值 为 60 )， 
对 其 进行 闵 值 化 处 理 ， 得 到 二 值 图像 : 

cv::Mat thresholded; // 输出 二 值 图 像 

cv::threshold(image,thresholded, 

60, // 阅 值 


255, // 对 超过 阅 值 的 像素 赋值 
CV: :THRESH_BINARY) ; // 阅 值 化 类 型 


得 到 的 二 值 图 像 清 晰 的 显示 出 背景 /前 景 的 分 割 情况 ; 



































Binary Image 
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4.2.3 ”实现 原理 
为 了 适应 各 种 场景 ，cv: :calcHist 函 数 带 有 很 多 参数 ， 如 下 : 


void calcHist (const Mat* images, int nimages, 
const int* channels, InputArray mask, OutputArray hist, 
int dims, const int* histSize, const float** ranges, 
bool uniform=true, bool accumulate=false ) 


大 多 数 情况 下 , 直方 图 是 单个 的 单 通道 或 三 通道 图 像 。 但 也 可 以 在 这 个 函数 中 指定 一 个 分 布 
在 多 个 图 像 上 的 多 通道 图 像 。 这 也 是 函数 输入 中 用 图 像 数 组 的 原因 。 第 六 个 参数 aims 指 明了 直 
方 图 的 维 数 。 例 如 1 表示 一 维 直 方 图 。 在 分 析 多 通道 图 像 时 ， 可 以 只 把 它 的 部 分 通道 用 于 计算 直 
方 图 , 将 需要 处 理 的 通道 放 在 维 数 确定 的 数组 channel 中 。 在 这 个 类 的 实现 中 只 有 一 个 通道 , 默 
认为 0。 直 方 图 用 每 个 维度 上 的 箱子 数量 ( 即 整数 数组 nistsize ) 以 及 每 个 维度 ( 由 ranges 数 
组 提供 ， 数 组 中 每 个 元 素 又 是 一 个 二 元 素数 组 ) 上 的 最 小 值 ( 含 ) 和 最 大 值 (不 含 ) 来 描述 。 你 
也 可 以 定义 一 个 不 均匀 的 直方 图 ， 这 时 需要 指定 每 个 箱子 的 限 值 。 


和 很 多 OpenCV 函 数 一 样 , 可 以 使 用 掩 码 表示 计算 时 用 到 的 像素 (所 有 掩 码 值 为 0 的 像素 都 不 
被 使 用 )。 此 外 还 可 以 指定 两 个 布尔 值 类 型 的 附加 参数 。 第 一 个 表示 是 否 采 用 均匀 的 直方 图 ( 默 
认为 均匀 ) 第 二 个 表示 是 否 允 许 累加 多 个 直方 图 计算 的 结果 。 如 果 第 二 个 参数 为 “是 "， 那 么 图 
像 中 的 像素 数量 会 累加 到 输入 直方 图 的 当前 值 中 。 在 计算 一 组 图 像 的 直方 图 时 , 就 可 以 使 用 这 个 


得 到 的 直方 图 存储 在 cv: :Mat 的 实例 中 。 实际 上 ， cv: :Mat 类 可 用 于 操作 通用 的 N 维 和 矩阵。 
第 2 章 讲 过 ，cv: :Mat 类 定义 了 适用 于 一 维 、 二 维和 三 维和 矩阵 的 at 方法 。 正 因为 如 此 ， 我 们 才 可 
以 在 getHistogramImage 方 法 中 用 下 面 的 代码 访问 一 维 直方 图 的 每 个 箱子 : 


float pinVal = hist.at<float>(h); 


注意 ， 直 方 图 中 的 值 被 存储 为 Eloat 值 。 































































































4.2.4 扩展 阅读 


本 节 中 的 Histogram1D 类 简化 了 cv: :calcHist 函 数 , 把 它 限 定 为 只 用 于 一 维 直 方 图 。 这 对 
灰 度 图 像 是 有 用 的 ， 但 是 怎么 处 理 彩 色 图 像 呢 ? 


计算 彩色 图 像 的 直方 图 


我 们 可 以 用 同一 个 cv: :calcHist 函 数 计算 多 通道 图 像 的 直方 图 。 例 如 ， 要 计算 彩色 BGR 岁 
像 的 直方 图 ， 可 以 这 样 定 义 一 个 类 : 














class ColorHistogram { 
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private: 
int histSize[3]; // 每 个 维度 的 大 小 
float hranges[2]; // 值 的 范围 
const float* ranges[3]; // 每 个 维度 的 范围 
int channels[3]; // 需要 处 理 的 通道 
public: 


ColorHistogram() { 


// 准备 用 于 彩色 图 像 的 默认 参数 
// 每 个 维度 的 大 小 和 范围 是 相等 的 
histSize[0]= histSize[1]= histSize[2]= 256; 








hranges[0]= 0.0; // BGR 范 围 为 0~256 
hranges[1]= 256.0; 
ranges[0]= hranges; // 这 个 类 中 ， 





ranges[1]= hranges; // 所 有 通道 的 范围 都 相等 
ranges[2]= hranges; 
channels[0]= 0; 
channels[1]= 1; 
channels[2]= 2; 


} 
这 里 的 直方 图 将 会 是 三 维 的 , 因此 需要 为 每 个 维度 指定 一 个 范围 。 本 例 中 的 BGR 图 像 ， 三 个 
通道 的 范围 都 是 [0,255] 。 准 备 好 参数 后 ， 就 可 以 用 下 面 的 方法 计算 颜色 直方 图 了 : 


// 计算 直方 图 
cvV::Mat getHistogram(const cv::Mat &image) { 


// 三 个 通道 























cv::Mat hist; 


// BGR 颜 色 直 方 图 





hranges[0]= 0.0; // BGR 的 范围 
hranges[1]= 256.0; 

channels[0]= 0; // 三 个 通道 
channels[1]= 1; 

channels[2]= 2; 


// 计算 直方 图 
cv::calcHist (&image, 








Ts, // 单个 图 像 的 直方 图 
channels, // 用 到 的 通道 
cv::Mat()， // 不 使 用 掩 码 

hist, // 得 到 的 直方 图 

3 // 这 是 一 个 三 维 直方 图 
histSize， // 箱子 数量 

ranges // 像素 值 的 范围 





}s 


return hist; 
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上 述 方法 返回 一 个 三 维 的 cv: :Mat 实 例 。 如 果 选 用 含有 256 个 箱子 的 直方 图 ， 这 个 矩阵 就 有 
(256)^3 个 元 素 ， 表 示 超 过 1600 万 个 项 目 。 在 很 多 程序 中 ， 最 好 在 计算 直方 图 时 减少 箱子 的 数量 。 
也 可 以 使 用 数据 结构 cv: :Spa rseMat 表 示 大 型 稀疏 矩阵 ( 即 非 零 元 素 非 常 稀 少 的 矩阵 3 而 不 会 
消耗 过 多 的 内 存 。cv: :calcHist 函 数 具有 返回 这 种 矩阵 的 版 本 ,因此 只 需要 简单 地 修改 一 下 前 
面 的 方法 ， 即 可 使 用 cv: :SparseMatrix: 


// 计算 直方 图 
Cv::SparseMat getSparseHistogram(const cv: :Mat &image) { 


























cv::SparseMat hist(3, // 维 数 
histSize, // 每 个 维度 的 大 小 
CV_32F); 


// BGR 颜 色 直 方 图 
hranges[0]= 0.0; // BGR 范 围 








hranges[1]= 256.0; 
channels[0]= 0; // 三 个 通道 
channels[1]= 1; 
channels[2]= 2; 
// 计算 直方 图 
cv::calcHist (&image, 

Es // 单个 图 像 的 直方 图 





channels， // 用 到 的 通道 

cv::Mat ()，// 不 使 用 掩 码 

hist, // 得 到 的 直方 图 

3 // 这 是 三 维 直 方 图 

histSize， // 箱子 数量 

ranges // 像素 值 的 范围 
); 





return hist; 


} 
显然 ， 我们 也 可 以 通过 显示 独立 的 R、G 和 B 通 道 的 直方 图 说 明 图 像 中 颜色 的 分 布 情况 。 




















4.2.5 ”参阅 
口 4.5 节 使 用 颜色 直方 图 来 检测 特定 的 图 像 内 容 。 








4.3 ”利用 查找 表 修 改 图 像 外 观 


图 像 直 方 图 为 我 们 提供 了 利用 现 有 像素 强度 值 进行 场景 泻 染 的 方法 。 通 过 分 析 图 像 中 像素 值 
的 分 布 情况 , 你 可 以 利用 这 个 信息 来 修改 图 像 ,甚至 改进 图 像 质量 。 本 节 解 释 如 何 用 一 个 简单 的 
映射 函数 ( 我 们 称 为 查找 表 )， 来 修改 图 像 的 像素 值 。 我 们 即将 看 到 ， 查 找 表 通常 根据 直方 分 布 
图 来 定义 。 
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4.3.1 ”如 何 实现 

查找 表 是 个 一 对 一 (或 多 对 一 ) 的 函数 ,定义 了 如 何 把 像素 值 转换 成 新 的 值 。 它 是 一 个 一 维 
数组 ， 对 于 规则 的 灰 度 图 像 ， 它 包含 256 个 项 目 。 利 用 查找 表 的 项 目 1， 可 得 到 对 应 灰 度 级 的 新 强 
度 值 ， 如 下 所 示 : 

newIntensity= lookup[loldIntensity]; 


OpenCV 中 的 cv: :LUT 函 数 在 图 像 上 应 用 查找 表 ， 可 生成 一 个 新 的 图 像 。 我 们 可 以 在 
Histogtraml1D 类 中 加 入 这 个 函数 : 








static cv: :Mat applyLookUp( 
const cvV: :Mat& image， // 输入 图 像 
const cv: :Mat& lookup) { // uchar 类 型 的 1 x 256 数 组 








// 输出 图 像 


cV: :Mat result; 





// 应 用 查找 表 


cv::LUT(image, Lookup,result) ， 


return result; 


} 


4.3.2 ”实现 原理 


在 图 像 上 应 用 查找 表 后 会 得 到 一 个 新 图 像 ， 新 图 像 的 像素 强度 值 被 修改 为 查找 表 中 规定 的 
值 。 下 面 是 一 个 简单 的 转换 过 程 : 


// 创建 一 个 图 像 反 转 的 查找 表 

int dim(256); 

cv::Mat lut (1，// 一 维 
&dim, // 256 个 项 目 
CV_8U); // uchar 类 型 








fo (drt TO TRS TF 


lut.at<uchar>(i)= 255-i; 


} 


这 个 转换 过 程 对 像素 强度 进行 简单 的 反 转 ， 即 强度 0 变 成 255、1 变 成 254， 等 等 。 对 图 像 应 用 
这 种 查找 表 后 ， 会 生成 原始 图 像 的 反 向 图 像 。 使 用 上 节 的 图 像 ， 得 到 结果 如 下 : 
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因 】 Negative image 一 


py 














4.3.3 扩展 阅读 


对 于 需要 更 换 全 部 像素 强度 值 的 程序 , 都 可 以 使 用 查找 表 。 但 是 这 个 转换 过 程 必须 是 针对 整 
幅 图 像 的 。 也 就 是 说 ， 一 个 强度 值 对 应 的 全 部 像素 都 必须 使 用 同一 种 转换 方法 。 

1. 伸展 直方 图 以 提高 图 像 对 比 度 

定义 一 个 修改 原始 图 像 直 方 图 的 查找 表 ， 可 以 提高 图 像 的 对 比 度 。 例如 ,观察 第 一 节 的 图 像 
直方 图 很 容易 发 现 : 整个 可 用 的 强度 值 范围 并 没有 被 完全 利用 ( 特别 是 图 像 中 比较 亮 的 强度 值 并 
没有 被 利用 )。 我 们 可 以 通过 伸展 直方 图 来 生成 一 个 对 比 度 更 高 的 图 像 。 为 此 要 使 用 一 个 百分比 
闵 值 ， 表 示 伸 展 后 图 像 的 黑色 和 白色 像素 的 百分比 。 

我 们 必须 在 强度 值 中 找到 一 个 最 小 值 ( imin ) 和 最 大 值 ( imax ), 使 得 所 要 求 的 最 小 的 像素 
数量 高 于 阔 值 指定 的 百分比 。 然 后 重新 映射 强度 值 , 使 imin 的 值 变 成 强度 值 0 ，imax 的 值 变 成 强 
度 值 255。 两 者 之 间 的 强度 值 i 可 以 简单 地 做 线性 重新 映射 ， 如 下 : 

255.0*(i-imin)/ (imax-imin); 


因此 ， 完 整 的 图 像 伸展 方法 如 下 所 示 : 





cV::Mat stretch(const cv::Mat &image, int minValue=0) { 


// 首先 计算 直方 图 


Cv::Mat hist= getHistogram(image); 


// 找到 直方 图 的 左边 限 值 
Ln Fmins. OQ 
for( ; imin < histSize[0]; imin++ ) { 
// 忽略 数量 少 于 minValue 项 目的 箱子 
if (hist.at<float>(imin) > minValue) 
break; 


: 


// 找到 直方 图 的 右边 限 值 
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int imax= histSize[0]-1; 
for( ; imax >= 0; imax-- ) { 


// 忽略 数量 少 于 minValue 的 箱子 
if (hist.at<float>(imax) > minValue) 


break; 

} 

// 创建 查找 表 

int dim(256); 

cv::Mat lookup(1, // 一 维 
&dim, // 256 个 项 目 
CV_8U); // uchar 类 型 

// 构建 查找 表 


for (int i=0; ji<256; i++) { 


// 在 imin 和 imax 之 间 伸 展 


if (i < imin) lookup.at<uchar>(i)= 0; 
else if (i > imax) lookup.at<uchar>(i)= 255; 
// 线性 映射 


else lookup.at<uchar>(i)= 
cvRound (255.0*(i-imin)/ (imax-imin)); 


} 


// 应 用 查找 表 
cV: :Mat result; 
result= applyLookUp (image, lookup); 


return result; 


} 

在 计算 完毕 后 ， 记 得 调用 applyLookUp 方 法 。 另 外 根据 经 验 ， 最 好 不 要 仅仅 忽略 值 为 0 的 箱 
子 , 还 要 忽略 数量 小 到 可 以 忽略 不 计 的 箱子 。 例 如 ,小 于 某 个 特定 的 数值 的 箱子 ( 这 里 用 minvalue 
表示 )。 这 个 方法 的 调用 方式 为 : 


// 把 1% 的 像素 设 为 黑色 ，1% 的 设 为 白色 
cv::Mat streteched = h.stretch(image,0.01f); 


伸展 图 像 的 结果 如 下 : 
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扩展 过 的 直方 图 如 下 : 








国 ' Stretched Histogram 一 写 


2. 在 彩色 图 像 上 应 用 查找 表 

第 2 章 中 我 们 定义 了 一 个 减 色 函数 ， 通 过 修改 图 像 中 的 BGR 值 减少 可 能 的 颜色 数量 。 当 时 的 
实现 方法 是 循环 遍历 图 像 中 的 像素 ,并 对 每 个 像素 应 用 减 色 函 数 。 实际 上 , 更 高 效 的 做 法 是 预先 
计算 好 所 有 的 减 色 值 ,然后 用 查找 表 修 改 每 个 像素 。 利 用 本 节 的 方法 ,这 很 容易 实现 。 下 面 是 新 
的 减 色 函 数 : 


void colorReduce(cv::Mat &image, int div=64) { 






























































// 创建 一 维 查 找 表 
cv::Mat lookup(1,256,CV_8U); 


// 定义 减 色 查 找 表 的 值 
for (int i=0; i<256; i++) 
lookup.at<uchar>(i)= i/div*div + div/2; 


// 对 每 个 通道 应 用 查找 表 


Cv: :LUT(image, lookup, image); 





} 

这 种 减 色 方案 之 所 以 能 在 这 里 正确 应 用 , 是 因为 在 多 通道 图 像 上 应 用 一 维 查 找 表 时 , 同一 个 
查找 表 会 独立 地 应 用 在 所 有 通道 上 。 如果 查找 表 超 过 一 个 维度 , 那么 它 和 所 用 图 像 的 通道 数 必须 
相同 。 









































4.3.4 ”参阅 
口 下 一 节 将 展示 另 一 种 增强 图 像 对 比 度 的 方法 。 
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4.4 直方 图 均衡 化 


上 节 我 们 介绍 了 一 种 增强 图 像 对 比 度 的 方法 。 即 通过 伸展 直方 图 , 使 它 布 满 可 用 强度 值 的 全 
部 范围 。 这 方法 确实 可 以 简单 有 效 地 改进 图 像 质量 。 但 很 多 时 候 ,， 图 像 的 视觉 缺陷 并 不 是 它 使 用 
的 强度 值 范围 太 窗 ， 而 是 由 于 部 分 强度 值 的 使 用 频率 比 其 他 强度 值 要 高 得 多 。4.1 节 显示 的 直方 
图 就 是 此 类 现象 的 一 个 很 好 的 例子 。 中 等 灰 度 的 强度 值 非常 多 , 而 较 暗 和 较 亮 的 像素 值 则 非常 稀 
少 。 通常 认为 ,对 所 有 可 用 像素 强度 值 都 均衡 使 用 , 才 是 一 副 高 质量 的 图 像 。 这 正 是 直方 图 均衡 
化 这 一 概念 背后 的 思想 ， 也 就 是 让 图 像 的 直方 图 尽 可 能 地 平稳 。 



































4.4.1 ”如何 实现 
OpenCV 提 供 了 一 个 易 用 的 函数 ， 用 于 直方 图 均衡 化 处 理 。 这 个 函数 的 调用 方式 为 : 


cv::equalizeHist (image,result); 


对 图 像 应 用 该 函数 后 ， 得 到 的 结果 如 下 : 











疏 Equalized Image 














均衡 化 后 图 像 的 直方 图 如 下 : 





[9 


苇 ， Equalized Histogram 






































付 
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当然 , 因为 查找 表 是 针对 整 幅 图 像 的 多 对 一 的 转换 过 程 ,所 以 直方 图 是 不 能 做 到 完全 平稳 的 。 
但 是 可 以 看 出 ， 直 方 图 的 一 般 分 布 情况 已 经 比 原来 均衡 多 了 。 








4.4.2 ”实现 原理 


在 一 个 完全 均衡 的 直方 图 中 ， 所 有 箱子 所 包含 的 像素 数量 是 相等 的 。 这 意味 着 50% 像 素 的 强 
度 值 小 于 128，25% 像 素 的 强度 值 小 于 64, 依 此 类 推 。 这 个 现象 可 以 用 一 条 规则 来 表示 : p% 像 素 
的 强度 值 必须 小 于 或 等 于 255*p%。 这 条 规则 用 于 直方 图 均衡 化 处 理 , 表示 强度 值 i 的 映像 对 应 强 
度 值 小 于 i 的 像素 所 占 的 百分比 。 因 此 可 以 用 下 面 的 语句 构建 所 需 的 查找 表 : 


lookup.at<uchar>(i)= 
static_ cast<uchar>(255.0*p[i]/image.total ()); 


这 里 p fi] 是 强度 值 小 于 或 等 于 i 的 像素 数量 ,通常 称 为 累计 直方 图 。 这 种 直方 图 包含 小 于 或 
等 于 指定 强度 值 的 像素 数量 ， 而 非 仅 仅 包 含 等 于 指定 强度 值 的 像素 数量 。 前 面 说 过 
image.total () 返 回 图 像 的 像素 总 数 ， 因 此 p [il /image.total () 就 是 像素 数量 的 百分比 。 


通常 直方 图 均衡 化 会 极 大 地 改进 图 像 外 观 ， 但 是 改进 的 效果 会 因 图 像 可 视 内 容 不 同 而 出 现 
差异 。 



































4.5 反 向 投影 直方 图 检测 特定 图 像 内 容 


直方 图 是 图 像 内 容 的 一 个 重要 特性 。 如 果 图 像 的 某 个 区 域 含有 特定 的 纹理 或 物体 , 这 个 区 域 
的 直方 图 就 可 以 看 作 一 个 函数 , 该 函数 返回 某 个 像素 属于 这 个 特殊 纹理 或 物体 的 概率 。 本 广 介 绍 
如 何 运 用 直方 图 反 向 投影 的 概念 方便 地 检测 特定 的 图 像 内 容 。 














4.5.1 如 何 实现 


假设 你 希望 在 某 个 图 像 中 检测 出 特定 的 内 容 〈 例 如 ,在 下 图 中 间 检 测 出 天 空中 的 云彩 )， 首 
先 要 做 的 就 是 选择 一 个 包含 所 需 样本 的 兴趣 区 域 。 下 图 中 ,该 区 域 就 是 绘制 的 矩形 内 部 : 
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在 程序 中 ， 用 下 面 的 方法 可 以 得 到 这 个 兴趣 区 域 : 


cv::Mat imageROI; 
imageROI= image (cv::Rect (216,33,24,30)); // 云彩 区 域 


接着 提取 该 兴趣 区 域 ( ROI ) 的 直方 图 。 使 用 4.1 节 的 HistogramlD 类 ， 将 很 容易 获得 该 直 
方 图 : 


HistogramlD h; 
cv::Mat hist= h.getHistogram(imageROI); 


通过 归 一 化 直方 图 ， 我们 可 得 到 一 个 函数 。 由 此 可 得 到 特定 强度 值 的 像素 属于 这 个 区 域 的 
概率 : 


cv::normalize (histogram,histogram,l1.0); 


反 向 投影 直方 图 的 过 程 包括 : 从 归 一 化 后 的 直方 图 中 读 取 概 率 值 并 把 输入 图 像 中 的 每 个 像素 
殖 换 成 与 之 对 应 的 概率 值 。OpenCV 中 有 一 个 函数 可 完成 此 任务 : 











弄 





























cvV::calcBackProject (&image, 
全 // 一 个 图 像 
channels, // 用 到 的 通道 ， 取 决 于 直方 图 的 维度 
histogram， // 需要 反 向 投影 的 直方 图 











result， // 反 向 投影 得 到 的 结果 
ranges, // 值 的 范围 
255.0 // 选用 的 换算 系数 





// 把 概率 值 从 1 映射 到 255 
} 


得 到 的 结果 就 是 下 面 的 概率 分 布 图 ， 属 于 该 区 域 的 概率 从 亮 ( 低 概 率 ) 到 暗 〈 高 概率 ): 























Backprojection result 一 口 

















如 果 对 此 图 做 阔 值 化 处 理 ， 就 得 到 最 有 可 能 是 “云彩 ”的 像素 : 


cv::threshold(result, result, threshold, 
255, cv::THRESH_BINARY); 


得 到 的 结果 如 下 : 


4.5 反 向 投影 直方 图 检测 特定 图 像 内 容 81 





4.5.2 ”实现 原理 


前 面 的 结果 并 不 令 人 满意 。 因 为 除了 云彩 ,其 他 区 域 也 被 错误 地 检测 到 了 。 这 个 概率 函数 是 


从 一 个 简单 的 灰 度 直方 图 提取 的 , 理解 这 点 很 重要 。 其 他 很 多 像素 的 强度 值 与 云彩 像素 的 强度 值 





辐 


Detection Result 到 





















































是 相同 的 , 在 对 直方 图 进行 反 向 投影 时 会 用 相同 的 概率 值 替 换 具 有 相同 强度 值 的 像素 。 有 一 种 方 
案 可 提高 检测 效果 ， 就 是 使 用 色彩 信息 。 要 实现 这 点 ， 需 改变 对 cv: :calBackProject 的 调用 
方式 。 
cv::calBackProject 国 数 和 cv: :calcHist 有 些 类 似 。 第 一 个 参数 指明 输入 的 图 像 ,接着 
需要 指明 使 用 的 通道 数量 。 这 里 传递 给 函数 的 直方 图 是 一 个 输入 参数 , 它 的 维度 数 要 与 通道 列表 


数组 的 维度 数 一 致 。 与 cv: :calcHist 函 数 一 样 ， 这 里 的 *anges 参 数 用 数组 形式 指定 了 输入 直 


方 






































图 的 箱子 边界 。 该 数组 以 浮 点 数组 为 元 素 ， 每 个 数组 元 素 表示 一 个 通道 的 取 值 范 围 ( 最 小 值 和 




















最 大 值 )。 输 出 结果 是 一 个 图 像 ， 即 计算 得 到 的 概率 分 布 图 。 由 于 每 个 像素 已 经 被 蔡 换 成 直方 网 
中 对 应 箱子 处 的 值 ， 因 此 输出 图 像 的 值 范 围 是 0 .0~1 .0 (假定 输入 的 是 归 一 化 直方 图 )。 最 后 一 


个 参数 是 换算 系数 ， 


4.5.3 扩展 阅读 















































可 用 来 重新 缩放 这 些 值 。 


现在 我 们 来 学 习 如 何在 直方 图 反 向 映射 算法 中 使 用 彩色 信息 。 
反 向 映射 颜色 直方 图 


多 维度 直方 图 也 可 以 在 图 像 上 进行 反 向 映射 。 我 们 定义 一 个 封闭 反 向 映射 过 程 的 类 , 首先 定 
义 必 需 的 参数 并 初始 化 : 


Class ContentFinder { 





private: 
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// 直方 图 参数 

float hranges[2]; 

const float* ranges[3]; 
int channels[3]; 





float thresholgd; // 判断 冰 值 
cv::Mat histogram; // 输入 直方 图 
public: 

ContentFinder() : threshold(0.1f) { 


// 本 类 中 ， 所 有 通道 的 范围 相同 
ranges[0]= hranges; 
ranges[1]= hranges; 
ranges[2]= hranges; 


} 
接 下 来 定义 一 个 国 值 参数 ， 用 于 创建 显示 检测 结果 的 二 值 分 布 图 。 如 果 这 个 参数 设 为 负数 ， 
就 会 返回 原始 的 概率 分 布 图 。 参 见 以 下 代码 : 


// 设置 直方 图 的 阅 值 [0,1] 
void setThreshold(float t) { 








dD 


threshold= t; 
} 


// 取得 闪 值 
float getThreshold() { 





return threshold; 


} 
输入 的 直方 图 用 下 面 的 方法 归 一 化 (但 这 不 是 必须 的 ): 


// 设置 引用 的 直方 图 


void setHistogram(const cv::Maté& h) { 

















histogram= h; 
cv: :normalize (histogram,histogram,l1.0); 


} 


要 反 向 投影 直方 图 ， 只 需 指定 图 像 、 范 围 (这 里 我 们 假定 所 有 通道 的 范围 是 相同 的 ) 和 所 用 
道 的 列表 。 人 参见 以 下 代码 : 


// 使 用 全 部 通道 ， 范 围 [0,256] 


cv::Mat find(const cv::Mat& image) { 






































cv::Mat result; 


hranges[0]= 0.0; // 默认 范围 [0,2561] 
hranges[1]= 256.0; 
channels[0]= 0; // 三 个 通道 
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channels[1]= 1; 
channels[2]= 2; 
return find(image, hranges[0], hranges{[1], channels); 


} 


// 查找 属于 直方 图 的 像素 

cv::Mat find(const cv::Maté& image, 
float minVvalue, float maxValue， 
int *channels) { 


cv::Mat result; 


hranges[0]= minValue; 
hranges[1]= maxValue; 


// 直方 图 的 维度 数 与 通道 列表 一 致 
for (int i=0; i<histogram.dims; i++) 
this->channels[i]= channels[i]; 








cv::calcBackProject (&image, 
Ts // 一 次 只 使 用 一 个 图 像 
channels， // 向 量 表 示 哪 个 直方 图 维度 属于 哪个 图 像 通道 








(er 








histogram，// 用 到 的 直方 图 
result, // 反 向 投影 的 图 像 
ranges, // 每 个 维度 的 值 范围 
255.0 // 选用 的 换算 系数 


// 把 概率 值 从 1 映射 到 255 
); 


// 对 反 向 投影 结果 做 阅 值 化 ， 得 到 二 值 图 像 
if (threshold>0.0) 
cv::threshold(result, result, 
255.0*threshold, 255.0, cv::THRESH_BINARY); 


return result; 


} 


现在 我 们 把 前 面 用 过 的 图 像 换 成 彩色 版 本 ( 访问 本 书 的 网 站 查看 彩色 图 像 ), 并 使 用 一 个 BGR 
直方 图 。 这 次 我 们 要 检测 蓝天 区 域 。 首 先 我 们 装载 彩色 图 像 ， 定义 兴趣 区 域 , 然后 计算 经 过 缩减 
的 色彩 空间 上 的 3D 直 方 图 。 代 码 如 下 : 

// 装载 彩色 图 像 


ColorHistogram hc; 
cv::Mat color= cv::imread ("waves2.jpg"); 














// 提取 兴趣 区 域 
imageROI= color(cv::Rect (0,0,100,45)); // 蓝 色 天 空 区 域 


// 取得 3D 颜 色 直 方 图 (每 个 通道 含 8 个 箱子 ) 
hc.setSize(8); // 8 x8x8 
cv::Mat shist= hc.getHistogram(imageROI); 
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下 一 步 是 计算 直方 图 ， 并 用 fina 方 法 检测 图 像 中 的 天 空 区域 : 


// 创建 内 容 搜寻 器 
ContentFinder finder; 
// 设置 用 来 反 向 投影 的 直方 图 
finder.setHistogram(shist); 
finder.setThreshold(0.05f); 








// 取得 颜色 直方 图 的 反 向 投影 


Cv::Mat result= finder.find(color); 


上 一 节 的 彩色 图 像 的 检测 结果 如 下 : 
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通常 来 说 ， 采 用 BGR 色 彩 空间 识别 图 像 中 的 物体 并 不 是 最 好 的 方法 。 这 里 为 了 提高 可 靠 性 ， 
我 们 在 计算 直方 图 之 前 缩减 了 颜色 的 数量 ( 要 知道 原始 BGR 色 彩 空间 有 超过 1600 万 种 的 颜色 )。 
提取 的 直方 图 代表 了 天 空 区 域 的 典型 颜色 分 布 情况 。 用 它 在 其 他 图 像 上 反 向 投影 , 也 能 检测 到 天 
空 区 域 。 注 意 ， 用 多 个 天 空 图 像 构 建 直 方 图 ， 可 以 提高 检测 的 准确 性 。 

本 例 中 ， 计算 稀 跑 直方 图 可 以 减少 内 存 使 用 量 。 你 可 以 使 用 cv: :SparseMat 重 做 该 实验 。 
另外 ， 如 果 要 寻找 色彩 鲜艳 的 物体 , 使 用 HSV 色 彩 空间 的 色调 通道 可 能 会 更 加 有 效 。 在 其 他 情况 
下 ， 最 好 使 用 感知 上 均匀 的 色彩 空间 ( 例如 L*a*b* ) 的 色 度 组 件 。 















































4.5.4 ”参阅 


口 下 一 节 我 们 将 用 HSV 色 彩 空 间 检测 图 像 中 的 物体 。 检 测 图 像 内 容 的 方法 很 多 ， 这 是 其 中 
的 一 种 。 














4.6 均值 平移 算法 查找 目标 
直方 图 反 向 投影 的 结果 是 一 个 概率 分 布 图 ， 表 示 一 个 指定 图 像 片段 出 现在 特定 位 置 的 概率 。 
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假设 我 们 已 经 知道 图 像 中 某 个 物体 的 大 致 位 置 , 就 可 以 用 概率 分 布 图 找到 物体 的 准确 位 置 。 最 可 
能 出 现 的 位 置 就 是 窗口 中 概率 最 大 的 位 置 。 因 此 我 们 可 以 从 一 个 初始 位 置 开始 ,在 周围 反复 移动 ， 
就 可 能 找到 物体 所 在 的 准确 位 置 。 这 个 实现 方法 称 为 均值 平移 算法 。 














4.6.1 如何 实现 


假设 我 们 已 经 是 识别 出 一 个 感 兴 趣 的 物体 一 一 这 里 是 独 儿 的 脸 部 
图 6 ): 








如 下 图 所 示 ( 男 见 彩 











这 次 我 们 采用 HSV 色 彩 空间 的 色调 通道 来 描述 物体 ,这 意味 着 我 们 需要 把 图 像 转 换 成 HSV 色 
彩 空间 并 提取 色调 通道 ， 然 后 计算 指定 ROI 的 一 维 色调 直方 图 。 参 见 以 下 代码 : 


// 读 取 参考 图 像 

cv::Mat image= cv::imread("baboon1.jpg"); 

// 独 独 脸 部 的 ROI 

cv::Mat imageROI= image (cv::Rect(110,260,35,40)); 

// 得 到 色调 直方 图 

int minSat=65; 

ColorHistogram hc; 

cv::Mat colorhist= 
hc.getHueHistogram(imageROI,minSat); 


我 们 在 colorHistogram 类 中 增加 了 一 个 简便 的 方法 ,来 获得 色调 直方 图 ， 代 码 如 下 : 


// 计算 一 维 色 调 直方 图 ( 带 掩 码 ) 
// BGR 的 原 图 转换 成 HSV 
// 忽略 低 饱 和 度 的 像素 
cv::Mat getHueHistogram(const cv::Mat &image, 
int minSaturation=0) { 











cv::Mat hist; 


// 转换 成 HSV 色 彩 空间 
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让 
CVv::CVvtColor (image, hsv, CV_BGR2HSV); 


// 掩 码 (可 用 或 可 不 用 ) 


cv::Mat mask; 
if (minSaturation>0) { 
// 把 3 个 通道 分 割 进 3 个 图 像 


std: :vector<cv: :Mat> v; 
cv::split (hsv,v); 





// 屏蔽 低 饱 和 度 的 像素 
cv::threshold(v[1],mask,minSaturation,255, 
Cv: :THRESH_BINARY); 
} 


// 准备 一 维 色调 直方 图 的 参数 








hranges[0]= 0.0; // 范围 为 0~180 
hranges[1]= 180.0; 
channels[0]= 0; // 色调 通道 


// 计算 直方 图 
cv::calcHist (&hsyv, 














1 // 只 有 一 个 图 像 的 直方 图 
channels，// 用 到 的 通道 

mask, // 二 值 掩 码 

hist, // 生成 的 直方 图 

人 // 这 是 一 维 直 方 图 





histSize，// 箱子 数量 
ranges // 像素 值 范围 
这 





return hist; 


} 
然后 把 得 到 的 直方 图 传 给 contentFinder 类 的 实例 ， 如 下 : 








ContentFinder finder; 
finder.setHistogram(colorhist); 


现在 打开 第 二 个 图 像 ,在 它 上 面 定 位 独 独 的 脸 部 ,首先 需要 把 这 个 图 像 转 换 成 HSV 色 彩 空间 ， 
然后 对 第 一 个 图 像 的 直方 图 做 反 向 投影 。 参 见 下 面 的 代码 : 


image= cv::imread("baboon3.jpg"); 

// 转换 成 HSV 色 彩 空间 

Cv::CVvtColor (image, hsv, CV_BGR2HSV); 

// 得 到 色调 直方 图 的 反 向 投影 

int ch[1]={0}; 

finder.setThreshold(-1.0f); // 不 做 阅 值 化 

cv::Mat result= fingder.find(hsv,0.0f,180.0f,ch); 


rect 对 象 是 一 个 初始 矩形 区 域 ( 即 初始 图 像 中 独 独 脸 部 的 位 置 )， 现 在 OpenCV 的 
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cvi :meanShift 算 法 将 会 把 它 修改 成 独 独 脸 部 的 新 位 置 。 参 考 以 下 代码 : 


// 窗口 初始 位 置 
cv::Rect rect (110,260,35,40); 











// 用 均值 偏 移 法 搜索 物体 

Cv::TermCriteria criterial(cv::TermCriteria: :MAXx_ITER, 
T0700) 

cv::meanShift (result,rect,criteria); 


脸 部 的 初始 位 置 ( 红色 ) 和 新 位 置 (绿色 ) 显示 如 下 ( 男 见 彩 图 7 ): 











|s Image 2 result 一 














4.6.2 ”实现 原理 


本 例 中 ,为 了 突出 被 寻找 物体 的 特征 ,我 们 使 用 了 HSV 色 彩 空间 的 色调 分 量 。 之 所 以 这 样 
做 是 因为 狮 狮 脸 部 有 非常 独特 的 粉红 色 ,， 使 用 像素 的 色调 很 容易 标识 独 独 脸 部 。 因 此 第 一 步 就 
是 把 图 像 转换 成 HSV 色 彩 空间 。 使 用 cv_BGR2HSV 标 志 转 换 图 像 后 ， 得 到 的 第 一 个 通道 就 是 色 
调 分 量 。 这 是 一 个 8 位 分 量 ， 值 范围 为 0~180 ( 如 果 使 用 cv: :cvtcolor， 转换 后 的 图 像 与 原始 
图 像 的 类 型 相同 )。 为 了 提取 到 色调 图 像 ，cv: : split 函数 把 三 通道 的 HSV 图 像 分 割 成 三 个 单 
通道 图 像 。 这 三 个 图 像 存放 在 一 个 sta: :vectoz 实 例 中 ， 并 且 色 调 图 像 是 向 量 的 第 一 个 人 口 
( 即 索引 为 0 )。 


在 使 用 颜色 的 色调 分 量 时 ， 要 把 它 的 饱和 度 考虑 在 内 〈 饱 和 度 是 矩 向 量 的 第 二 个 人 口 )， 这 
一 点 通常 很 重要 。 如 果 颜 色 的 饱和 度 很 低 , 它 的 色调 信息 就 会 变 得 不 稳定 且 不 可 靠 。 这 是 因为 低 
饱和 度 颜色 的 B、G 和 R 分 量 几乎 是 相等 的 。 这 导致 很 难 确 定 它 所 表示 的 准确 颜色 。 因 此 我 们 决定 
忽略 低 饱 和 度 颜 色 的 色彩 分 量 。 也 就 是 不 把 它们 统计 进 直 方 图 中 ( 在 getHueHistogram 方 法 中 
使 用 minsat 参 数 ， 可 屏蔽 掉 饱 和 度 低 于 此 阔 值 的 像素 )。 
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均值 偏 移 算法 是 一 个 迭代 过 程 , 用 于 定位 概率 函数 的 局 部 最 大 值 。 定位 的 方法 是 寻找 预定 义 











窗口 内 部 数据 点 的 重心 或 加 权 平 均值 。 然 后 把 窗 





口 移动 到 重心 的 位 置 ， 并 重复 该 过 程 ， 直 到 窗口 





中 心 收敛 到 一 个 稳定 的 点 。OpenCV 实 现 该 算法 时 定义 了 两 个 停止 条 件 : 迭代 次 数 达 到 最 大 值 ; 
窗口 中 心 的 偏 移 值 小 于 某 个 限 值 ， 可 认为 该 位 置 收敛 到 一 个 稳定 点 。 这 两 个 条 件 存储 在 一 个 








cv: :TermCriteria 实 例 中 。cv: :meanShift 捕 数 返 回 已 经 执行 的 迭代 次 数 。 显 然 ， 结 果 的 好 
坏 取决 于 在 指定 初始 位 置 处 提供 的 概率 分 布 图 的 质量 。 注意 , 这 里 我 们 用 颜色 直方 图 表示 图 像 的 
外 观 。 也 可 以 用 其 他 特征 的 直方 图 ( 例如 边界 方向 直方 图 ) 来 表示 物体 。 














4.6.3 ”参阅 














口 均值 偏 移 算法 广泛 应 用 于 视觉 妃 踪 。 第 11 章 会 详细 探讨 目标 跟踪 的 问题 。 
口 D. Comaniciu 和 P Meer 发 表 在 《IEEE 模 式 分 析 与 机 器 智能 》( BEE Transactions on Pattern 





Analysis and Machine Intelligence ) 杂志 2002 年 第 5 期 第 24 卷 上 的 文章 “Mean Shift: Arobust 


approach toward feature space analysis” 首 





次 提出 了 均值 偏 移 算 法 。 

















口 OpenCV 也 提供 了 CamShift 算 法 的 具体 实现 方法 。 这 个 算法 是 均值 偏 移 算法 的 改进 版 本 ， 


它 允 许 修改 窗口 的 尺寸 和 方向 。 


4.7 ”比较 直方 图 搜索 相似 图 像 


基于 内 容 的 图 像 检 索 是 计算 机 视觉 的 一 个 重要 课题 。 它 包括 根据 一 个 已 有 的 基准 图 像 , 找 出 





一 批 内 容 相似 的 图 像 。 我 们 知道 ， 直方 图 是 标识 
否 能 用 它 来 解决 基于 内 容 检索 的 问题 。 


这 里 的 关键 是 要 做 到 , 仅仅 比较 它们 的 直方 

















图 像 内 容 的 一 种 有 效 方式 ， 因 此 值得 研究 一 下 是 





图 就 能 测量 出 两 个 图 像 的 相似 度 。 需要 定义 一 个 


测量 函数 来 评估 两 个 直方 图 之 间 的 差异 程度 或 相似 程度 。 人 们 已 经 提出 了 很 多 这 样 的 测量 方法 ， 
OpenCV 在 cv: :compareHist 消 数 的 实现 过 程 中 使 用 了 其 中 的 一 些 方法 。 








4.7.1 如 何 实现 








为 了 将 一 个 基准 图 像 与 一 批 图 像 进行 对 比 并 找 出 其 中 与 它 最 相似 的 图 像 ， 我 们 创建 了 类 
ImageComparator。 这 个 类 引用 了 一 个 基准 图 像 和 一 个 输入 图 像 ( 连同 它们 的 直方 图 )。 另外 ， 











因为 我 们 要 用 颜色 直方 图 来 进行 比较 ， 因此 用 到 ColorHistogram 类 : 





class ImageComparator { 
private: 


cv::Mat refH; // 基准 直方 图 





cv::Mat inputH; // 输入 图 像 的 直方 图 


4.7 比较 直方 图 搜索 相似 图 像 89 








ColorHistogram hist; // 生成 直方 图 
int nBins; // 每 个 颜色 通道 使 用 的 箱子 数量 


public: 


ImageComparator() :npBins(8) { 


} 
为 了 得 到 更 加 可 靠 的 相似 度 测量 结果 , 我 们 需要 在 计算 直方 图 时 减少 箱子 的 数量 。 可 以 在 类 
中 指定 每 个 BGR 通 道 所 用 的 箱子 数量 。 参 见 下 面 的 代码 : 


// 设置 比较 直方 图 时 使 用 的 箱子 数量 


void setNumberOfBins( int bins) { 











nBins= bins; 


} 
用 一 个 适当 的 设 值 函 数 指定 基准 图 像 ， 同 时 计算 参考 直方 图 。 如 下 所 示 : 


// 计算 基准 图 像 的 直方 图 


void setReferenceImage (const cv::Mat& image) { 








hist.setSize(nBins); 
refH= hist.getHistogram (image); 


} 
最 后 ，compare 方 法 会 将 基准 图 像 和 指定 的 输入 图 像 进 行 对 比 。 下 面 的 方法 返回 一 个 分 数 ， 
表示 两 个 图 像 的 相似 程度 : 


// 用 BGR 直 方 图 比较 图 像 


double compare(const cv::Maté& image) { 
inputH= hist.getHistogram(image); 


return cv::compareHist (efH, inputH,CV_COMP_INTERSECT ) ; 
} 


前 面 的 类 可 用 来 检索 与 给 定 的 基准 图 像 类 似 的 图 像 。 初 始 化 类 的 实例 时 使 用 下 面 的 代码 : 


ImageComparator c; 
c.setReferenceImage (image); 


这 里 我 们 用 4.5 节 中 海滩 图 的 彩色 版 本 作为 基准 图 像 ， 并 将 这 个 图 像 与 后 面 的 一 系列 图 像 进 
行 对 比 。 图 像 的 显示 顺序 为 相似 度 大 的 放 前 面 ， 相 似 度 小 的 放 后 面 ， 如 下 所 示 : 
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4.7.2 ”实现 原理 


大 多 数 直方 图 比较 方法 都 是 基于 逐个 箱子 进行 比较 。 正 因为 如 此 , 在 测量 两 个 颜色 直方 图 的 
相似 度 时 减少 直方 图 箱子 数量 显得 十 分 重要 。 对 cv: :compareHist 的 调用 非常 简单 。 只 需要 输 
入 两 个 直方 图 ， 也 数 就 返回 它们 的 差距 。 你 可 以 通过 一 个 标志 参数 指定 想 要 使 用 的 测量 方法 。 


ImageCompa 








rator 类 使 用 了 交叉 点 方法 ( 带 有 cv_coMP_INTERSECT 标 志 )。 该 方法 只 是 逐个 箱 











子 地 比较 每 个 直方 图 中 的 数值 ， 并 保存 最 小 的 值 。 然 后 把 这 些 最 小 值 累 加 ， 作 为 相似 度 测量 值 。 
因此 ， 两 个 没有 相同 颜色 的 直方 图 得 到 交叉 值 为 0， 而 两 个 完全 相同 的 直方 图 得 到 的 值 就 等 于 像 


素 总 数 。 





其 他 可 用 的 算法 有 : 卡 方 测量 法 (cv_coMP_cHISOR 标 志 )， 累 加 各 箱子 的 归 一 化 平方 差 ; 
关联 性 算法 ( cv_coMP_CORREL 标 志 )， 基 于 信和 号 处 理 中 的 归 一 化 交叉 关联 操作 符 测 量 两 个 信和 号 
的 相似 度 ; Bhattacharyya 测 量 法 (cv_coMP_BHATTAcHARYYA 标 志 )， 用 在 统计 学 中 ,评估 两 个 
概率 分 布 的 相似 度 。 





4.7.3 ”参阅 


口 OpenCV 文 档 详 细 描 述 了 不 同 的 直方 图 比较 方法 中 使 用 的 公式 。 











口 推土机 距离 (Earth Mover Distance ) 是 男 一 种 流行 的 直方 图 比较 方法 ， 在 OpenCV 中 通过 


cv: : EMD 水 数 实现 。 这 种 方法 的 主要 优势 ， 是 它 在 评估 两 个 直方 图 的 相似 度 时 ， 考 虑 了 
在 邻近 箱子 中 发 现 的 数值 。 具 体 描述 可 查看 Y Rubner、C. Tomasi 和 L. J. Guibas 发 表 在 Int. 
Journal of Computer Vision 2000 年 第 2 期 卷 40( 页 码 99~121 ) 上 的 “The Earth Mover’s 
Distance as a Metric for Image Retrieval” 。 
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4.8 用 积分 图 像 统 计 像素 


前 面 几 节 讲 了 直方 图 的 计算 方法 , 即 遍历 图 像 的 全 部 像素 并 累计 每 个 强度 值 在 图 像 中 出 现 的 
次 数 。 我 们 也 看 到 ， 有 时 只 需要 计算 图 像 中 某 个 特定 区 域 的 直方 图 。 实 际 上 累计 图 像 的 某 个 子 区 
域内 的 像素 总 数 , 是 很 多 计算 机 视觉 算法 中 常见 的 过 程 。 现 在 假设 需要 对 图 像 中 的 多 个 兴趣 区 域 
计算 几 个 此 类 直方 图 。 这 些 计算 过 程 都 马上 会 变 得 非常 耗 时 。 这 种 情况 下 ， 有 一 个 工具 可 以 极 大 
地 提高 统计 图 像 子 区 域 像素 的 效率 ， 积分 图 像 。 


在 统计 图 像 兴趣 区 域 的 像素 时 , 使 用 积分 图 像 是 一 种 高 效 的 方法 。 它 在 程序 中 的 应 用 非常 广 
泛 ， 例 如 用 于 计算 基于 不 同 大 小 的 滑动 窗口 。 

本 节 将 讲解 积分 图 像 背后 的 原理 。 这 里 的 目标 是 说 明 如 何 只 用 三 次 算术 运算 ， 累 加 一 个 矩形 
区 域 的 像素 。 在 我 们 学 会 这 个 概念 后 ，4.8.3 节 将 展示 两 个 有 效 使 用 积分 图 像 的 实例 。 




















4.8.1 如 何 实现 


本 节 将 使 用 下 面 的 图 像 来 做 演示 , 识别 出 图 像 中 的 一 个 兴趣 区 域 。 区 域内 容 为 一 个 骑 自 行车 
的 女孩 : 





L Initial Image 


ca| 


ey 














在 累加 多 个 图 像 区 域 的 像素 时 , 积分 图 像 显 得 非常 有 用 。 通常 来 说 , 要 获得 兴趣 区 域 全 部 像 
素 的 累加 和 ， 常 规 的 代码 如 下 : 


// 打开 图 像 

cv::Mat image= cv::imread("bike55.bmp",0); 

// 定义 图 像 的 ROI (这 里 为 骑 自 行车 的 女孩 ) 

int ‘Xo=97,; yoO=112.; 

int width=25, height=30; 

Cv::Mat roi (image,cv::Rect (xo,yo,width,height)); 
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// 计算 累加 值 

// 返回 一 个 多 通道 图 像 下 的 Scalar 数 值 

cv::Scalar sum= Cv: :sum(roi); 

cv: :sum 困 数 只 是 遍历 区 域内 的 所 有 像素 ， 并 计算 累加 和 。 使 用 积分 图 像 后 ， 只 需要 三 次 加 
法 运算 即 可 实现 该 功能 。 不 过 首先 需要 计算 积分 图 像 ， 代 码 如 下 : 

// 计算 积分 图 像 


cv::Mat integralImage; 
cv::integral (image, integralImage,CV_325); 


可 以 在 积分 图 像 上 用 简单 的 算术 表达 式 绑 得 同样 的 结果 (下 一 节 会 详细 解释 )， 代 码 为 : 


// 用 三 个 加 / 减 运算 得 到 一 个 区 域 的 累加 值 

int SumInt= integrallImage.at<int>(yo+height,xo+width) 
-integralImage.at<int>(yo+t+height,xo) 
-integrallImage.at<int>(yo,xo+width) 
+integralImage.at<int> (yo,xo); 


两 种 做 法 得 到 的 结果 是 一 样 的 。 但 计算 积分 图 像 需要 遍历 全 部 像素 ,因此 速度 比较 慢 。 关 键 
是 一 旦 这 个 初始 计算 完成 , 只 需要 添加 四 个 像素 就 能 得 到 兴趣 区 域 的 累加 和 , 与 区 域 的 尺寸 无 关 。 
因此 ， 如 果 需 要 在 多 个 尺寸 的 区 域 上 计算 像素 累加 和 ， 就 最 好 采用 积分 图 像 。 



























































4.8.2 ”实现 原理 


上 一 节 我 们 简单 地 演示 了 积分 图 像 的 “神奇 ”功能 ， 即 可 用 来 快速 计算 矩形 区 域内 的 像素 累 
加 和 ,并 通过 演示 简要 介绍 了 积分 图 像 的 概念 。 为 了 理解 积分 图 像 的 实现 原理 ,我 们 先 对 它 下 一 
个 定义 。 取 图 像 左 上 侧 的 全 部 像素 计算 累加 和 ， 并 用 这 个 累加 和 替换 图 像 中 的 每 一 个 像素 ， 用 这 
种 方式 得 到 的 图 像 称 为 积分 图 像 。 计算 积分 图 像 时 只 需 对 图 像 扫描 一 次 。 这 是 因为 当前 像素 的 积 
分 值 等 于 上 一 像素 的 积分 值 加 上 当前 行 的 累计 值 。 因此 积分 图 像 就 是 一 个 包含 像素 累加 和 的 新 图 
像 。 为 防止 溢出 ， 积 分 图 像 的 值 通常 采用 int 类 型 (cv_32s ) 或 float 类 型 (cv_32F ), 例如 下 
图 中 ， 积 分 图 像 的 像素 A 包含 左上 角 区 域 ， 即 双 阴 影 线 图 案 标 识 的 区 域 的 像素 的 累加 和 。 
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计算 完 积分 图 像 后 ， 只 需要 访问 四 个 像素 就 可 以 得 到 任何 矩形 区 域 的 像素 累加 和 。 这 里 解释 
一 下 原因 。 再 来 看 前 面 的 图 片 ， 计 算 由 A、B、C、D 四 个 像素 表示 区 域 的 像素 累加 和 ， 先 读 取 D 
的 积分 值 , 然后 减 去 B 的 像素 值 和 C 的 左手 边区 域 的 像素 值 。 但 是 这 样 就 把 A 左 上 角 的 像素 累加 和 
减 了 两 次 ， 因 此 需要 重新 加 上 A 的 积分 值 。 所 以 计算 A、B、C、D 区 域内 的 像素 累加 的 正式 公式 
为 : A-B -C+D。 如 果 用 cv: :Mat 方 法 访问 像素 值 ， 公 式 可 转换 成 以 下 代码 : 

/ /窗口 的 位 置 是 (Xo,yo0) ， 尺 寸 是 width x height 

return (integralIimage.at<cv::Vec<T,N>> 

(yo+height,xo+width) 
-integralImage.at<cv: :Vec<T,N>> (yo+theight ,xo) 


-integralImage.at<cv::Vec<T,N>> (yo,xo+width) 
+integralImage.at<cv::Vec<T,N>> (yo,xo)); 


不 管 兴趣 区 域 的 尺寸 有 多 大 ， 使 用 这 种 方法 计算 的 复杂 度 是 恒定 不 变 的 。 注 意 ， 为 了 简化 ， 
这 里 使 用 了 cv: :Mat 类 的 at 方 法 , 它 访问 像素 值 的 效率 并 不 是 最 高 的 (参见 第 2 童 ),。 4.8.3 节 将 讨 
论 这 方面 内 容 ， 通 过 两 个 例子 说 明 积分 图 像 在 效率 上 的 优势 。 





























4.8.3 扩展 阅读 


积分 图 像 适合 用 来 执行 多 次 像素 累计 值 的 统计 。 本 段 将 通过 介绍 自 适应 阔 值 化 的 概念 ,说 明 
积分 图 像 的 使 用 方法 。 在 需要 快速 计算 多 个 窗口 的 直方 图 时 ， 积 分 图 像 非常 有 用 。 本 节 也 将 对 此 
进行 解释 。 

1. 自 适应 的 阐 值 化 

通过 对 图 像 应 用 辣 值 来 创建 二 值 图 像 是 从 图 像 中 提取 有 意义 元 素 的 好 方法 ,假设 有 下 面 这 个 
关于 本 书 的 图 像 : 











加 Original Image 过 
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为 了 分 析 图 像 中 的 文字 ， 我 们 对 该 图 像 应 用 一 个 阔 值 ， 代 码 如 下 : 
// 使 用 固定 的 阀 值 

cv::Mat binaryFixed; 
cv::threshold(image,binaryFixed,70,255,cv::THRESH_BINARY); 


得 到 如 下 结果 : 
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实际 上 ,不管 选用 什么 阔 值 ， 图 像 都 会 丢失 一 部 分 文本 ,还 有 部 分 文本 会 消失 在 阴影 下 。 要 
解决 这 个 问题 ,有 一 个 办 法 就 是 采用 局 部 阅 值 ， 即 根据 每 个 像素 的 邻 域 计 算 闵 值 。 这 种 策略 称 为 
自 适应 阅 值 化 , 包括 将 每 个 像素 的 值 与 邻 域 的 平均 值 进行 比较 。 如 果 某 像素 的 值 与 它 的 局 部 平均 
值 差别 很 大 ， 就 会 被 当 作 异常 值 在 闵 值 化 过 程 中 列 除 。 


因此 自 适 应 阔 值 化 需要 计算 每 个 像素 周围 的 局 部 平均 值 。 这 需要 多 次 计算 图 像 窗口 的 累计 
值 ， 可 以 通过 积分 图 像 提高 计算 效率 。 正 因为 如 此 ， 方 法 的 第 一 步 就 是 计算 积分 图 像 : 

// 计算 积分 图 像 

cv::Mat iimage; 

cv::integral (image,iimage,CV_325); 

现在 我 们 可 以 遍历 全 部 像素 ， 并 计算 方形 邻 域 的 平均 值 。 我 们 也 可 以 使 用 IntegralImage 
类 来 实现 这 个 功能 , 但 是 这 个 类 在 访问 像素 时 使 用 了 效率 很 低 的 at 方 法 。 根据 第 2 章 学 过 的 方法 ， 
我 们 可 以 使 用 指针 遍历 图 像 以 提高 效率 。 循 环 代码 如 下 : 


int blockSize= 21; // 邻 域 的 尺寸 
int threshold=10; // 像素 将 与 (mean-threshold) 进 行 比 较 
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// 逐 行 
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int halfSize= blockSize/2; 
for (int j=halfSize; j<nl-halfSize-1; j++) { 


// 得 到 第 j 行 的 地 址 

uchar* data= binary.ptr<uchar>(j); 

int* idatal= iimage.ptr<int>(j-halfSize); 
int* idata2= iimage.ptr<int>(j+halfSize+1); 


// 一 个 线条 的 像素 


for (int i=halfSize; i<nc-halfSize-1; i++) { 


// 计算 累加 值 
int sum= (idata2[i+halfSize+1]- 
idata2[i-halfSize]- 
idatal[i+halfSize+1]+ 
idatal[i-halfSsize])/ 
(blockSize*blockSize); 


// 应 用 自 和 过 应 阀 值 
if (data[i]<(sum-threshold)) 
data[i]= 0; 
else 
at]=2953 





} 
} 
本 例 使 用 了 21 x 21 的 邻 域 。 为 计算 每 个 平均 值 , 我 们 需要 访问 界定 正方 形 邻 域 的 四 个 积分 像 
素 : 两 个 在 标 有 iaqatal 的 线条 上 ， 另 两 个 在 标 有 iaqata2 的 线条 上 。 当 前 像素 与 计算 得 到 的 平均 
值 进行 比较 。 为 了 确保 被 吻 除 的 像素 与 局 部 平均 值 有 明显 的 差距 ， 这 个 平均 值 要 减 去 阔 值 (这 里 
设 为 10 )。 由 此 得 到 下 面 的 二 值 图 像 : 
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很 明显 ,这 比 我 们 用 固定 阐 值 得 到 的 结果 好 得 多 。 自 适 应 阐 值 化 是 一 种 常用 的 图 像 处 理 技术 。 


OpenCV 中 也 实现 了 这 种 方法 : 





cv::adaptiveThreshold (image, // 输入 图 像 
binaryAdaptive, // 输出 二 值 图 像 
255., // 输出 的 最 大 值 
cvV: :ADAPTIVE_THRESH_MEAN_C，// 方法 
CV: :THRESH_BINARY, // 阅 值 类 型 
blockSize, // 块 的 大 小 
threshold); // 使 用 的 阅 值 














调用 这 个 函数 得 到 的 结果 与 使 用 积分 图 像 的 结果 完全 相同 。 另外 , 除了 在 阐 值 化 中 使 用 局 部 
平均 值 ， 本 例 中 的 函数 还 可 以 使 用 高 斯 ( Gaussian ) 加 权 累 计 值 ( 该 方法 的 标志 》 


ADAPTIVE_THRESH_GAUSSIAN_C )。 有 意思 的 是 ， 这 种 实现 方式 要 比 调用 cv: :adaptive 





























Thresholgd 稍 微 快 一 些 。 








最 后 需要 注意 ,我 们 也 可 以 用 OpenCV 的 图 像 运 算 符 来 编写 自 适 应 闪 值 化 过 程 ,具体 方法 如 下 : 




















cv::Mat filtered; 

cv::Mat binaryFiltered; 

Cv: :boxFilter(image,filtered,cV_8U, 
cv::Size(blockSize,blockSize)); 

filtered= filtered-threshold; 

binaryFiltered= image>= filtered; 


图 像 滤波 的 内 容 将 在 第 6 章 介绍 。 


2. 用 直方 图 实现 视觉 追踪 





通过 前 面 几 节 的 学 习 , 我 们 知道 可 用 直方 图 表示 物体 外 观 的 全 局 特征 。 本 节 我 们 搜寻 一 个 所 
呈现 直方 图 与 目标 物体 相似 的 图 像 区 域 ,演示 如 何在 图 像 中 定位 物体 , 以 此 说 明 积分 图 像 的 用 途 。 
我 们 在 4.6 节 实现 了 这 个 功能 ， 用 的 是 直方 图 反 向 投影 概念 和 通过 均值 偏 移 局 部 搜索 的 方法 。 这 






































次 我 们 在 整 幅 图 像 上 显 式 地 搜索 具有 类 做 直 方 图 的 区 域 ， 以 此 找到 物体 。 








有 一 种 特殊 情况 , 即 由 0 和 1 组 成 的 二 值 图 像 生成 积分 图 像 , 这 时 的 积分 累计 值 就 是 指定 区 域 





内 值 为 1 的 像素 总 数 。 本 节 将 利用 这 一 现象 计算 灰 度 图 像 的 直方 图 。 














cv: :integral 函 数 也 可 用 于 多 通道 图 像 。 可 以 充分 利用 这 点 ， 用 积分 图 像 计 算 图 像 子 区 域 























的 直方 图 。 只 需 简 单 地 把 图 像 转换 成 由 二 值 平面 组 成 的 多 通道 图 像 。 每 个 平面 关联 直方 图 
箱子 ， 并 显示 哪些 像素 的 值 会 进入 该 箱子 。 下 面 的 函数 从 一 个 灰 度 图 像 创 建 这 样 的 多 图 层 


// 转换 成 二 值 图 层 组 成 的 多 通道 图 像 
// nPlanes 必 须 是 2 的 畦 
void convertToBinaryPlanes (const cv: :Mat& input, 
cv::Mat& output, int nplanes) { 

















// 需要 屏蔽 的 位 数 


一 个 


图 像 : 
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int n= 8-static cast<int>( 
log(static_cast<double>(nPlanes))/lo0g(2.0)); 
// 用 来 消除 最 低 有 效 位 的 掩 码 


uchar mask= OxFF<<n; 


// 创建 二 值 图 像 的 向 量 
std: :Vector<CcV: :Mat> planes; 
// 消除 最 低 有 效 位 ， 箱 子 数 减 为 DBins 


cvV::Mat reduced= input&mask; 





// 计算 每 个 二 值 图 像 平面 


for (int i=0; i<nPlanes; i++) { 


// 将 每 个 等 于 <<shift 的 像素 设 为 1 
planes.push back( (reduced== (i<<n))&0x1); 


} 





// 创建 多 通道 图 像 


cv: :merge (planes,output); 





} 
你 也 可 以 把 积分 图 像 的 计算 过 程 封装 进 模板 类 中 : 











template <typename T, int N> 
class IntegralImage { 


cv::Mat integrallImage; 
public: 
IntegralImage (cv::Mat image) { 


// (很 耗 时 ) 计算 积分 图 像 
cv::integral (image, integralImage, cv: :DataType<T>::type) : 


} 


// 通过 访问 4 个 像素 ， 计 算 任何 尺寸 子 区 域 的 累计 值 
CVv::Vec<T,N> operator() (int xo, int yo, 
int width, int height) { 


// ” (xo，Yyo) 处 的 窗口 ， 尺 寸 为 nidth x height 
return (integrallIimage.at<cv::Vec<T,N>> 
(yo+height,xo+width) 
-integralImage.at<cv::Vec<T,N>>(yo+height, xo) 
-integralImage.at<cv::Vec<T,N>>(yo,xo+t+width) 
+integralImage.at<cv: :Vec<T,N>> (yo,xo)); 


二 


我 们 在 前 面 的 图 像 中 识别 了 骑 车 女孩 , 现在 要 在 后 面 的 图 像 中 找到 她 。 首 先 计算 原 始 图 像 中 
女孩 的 直方 图 ， 可 通过 本 章 前 面 创建 的 Histogram1D 类 实现 。 以 下 代码 生成 16 个 箱子 的 直方 图 : 
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// 16 个 箱子 的 直方 图 
HistogramlD h; 
h.setNBins (16); 
// 计算 图 像 中 ROI 的 直方 图 


cv::Mat refHistogram= h.getHistogram(roi); 


这 个 直方 图 将 作为 基准 ， 在 下 面 的 图 像 中 定位 目标 〈 即 骑 车 女孩 )。 


假设 我 们 仅 有 的 信息 , 是 图 像 中 女孩 在 水 平方 向 移动 。 因 为 需要 对 不 同 的 位 置 计算 很 多 直方 
图 ， 我 们 先 做 准备 工作 ， 即 计算 积分 图 像 。 参 见 以 下 代码 : 

// 首先 创建 16 个 平面 的 二 值 图 像 

cV: :Mat planes; 

convertToBinaryPlanes (secondIimage,planes,16); 

// 然后 计算 积分 图 像 

IntegralImage<float,16> intHistogram(planes); 

执行 搜索 时 , 循环 遍历 可 能 出 现 目 标的 位 置 ， 并 将 它 的 直方 图 与 基准 直方 图 作 比 较 , 目的 是 
找到 与 直方 图 最 相似 的 位 置 。 参 见 以 下 代码 : 
























































double maxSimilarity=0.0; 
int xbest, ybest; 
// 遍历 原始 图 像 中 女孩 位 置 周围 的 水 平 长 条 
for (int y=110; y<120; y++) { 
for (int x=0; x<secondImage.cols-width; x++) { 


// 用 积分 图 像 计 算 16 个 箱子 的 直方 图 

histogram= intHistogram(x,y,width,height); 

// 计算 与 基准 直方 图 的 差距 

double distance= cv::compareHist (refHistogram, 
histogram, CV_COMP_INTERSECT); 

// 找到 最 相似 直方 图 的 位 置 


if (distance>maxSimilarity) { 


xbest= x; 

ybest= y; 

maxSimilarity= distance; 

3 
3 
3 
// 在 最 准确 的 位 置 画 矩形 
cv::rectangle(secondImage, 
cv: :Rect (xbest,ybest,width,height),0)); 


然后 就 可 确定 直方 图 最 相似 的 位 置 ， 如 下 图 所 示 : 
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白色 矩形 表示 搜索 的 区 域 。 计算 区 域内 部 所 有 窗口 的 直方 图 。 这 里 窗口 尺寸 是 固定 的 , 但 是 
更 好 的 做 法 是 也 搜索 稍 小 或 稍 大 的 窗口 ， 以 便 应 对 缩放 比例 可 能 出 现 的 变动 。 需要 注意 , 为 了 减 
少 计算 复杂 度 , 要 减少 直方 图 箱子 的 计算 数量 。 本 例 中 减少 到 16 个 箱子 。 因 此 在 这 个 多 平面 图 像 
中 ,平面 0 包含 一 个 二 值 图 像 ， 表 示 值 从 0 到 15 的 所 有 像素 ; 平面 1 表示 值 从 16 到 31 的 全 部 像素 ， 
等 等 。 


对 物体 的 搜索 过 程 包含 了 用 预定 范围 的 像素 计算 指定 尺寸 的 所 有 窗口 的 直方 图 的 计算 过 程 。 
这 意味 着 从 积分 图 像 对 3200 个 不 同 直方 图 进行 了 高 效 计算 。IntegralImage 类 返回 的 直方 图 都 
存储 在 cv: :Vec 对 象 中 ( 因为 用 了 at 方法 )。 然 后 用 cv: :compareHist 函 数 找到 最 相似 的 直方 
(和 大 多 数 OpenCV 函 数 一 样 ， 这 个 函数 可 以 利用 实用 的 通用 参数 类 型 cv: : InputaArray 获 得 
Ce :Mat 或 cv: :Vec )。 





























4.8.4 参阅 


口 第 8 章 将 讲述 SURF 运 算 符 ， 它 也 基于 对 积分 图 像 的 使 用 。 

口 A. Adam、E. Rivlin 和 I. Shimshoni 发 表 在 proceeding of the Int. Conference on Computer Vision 
and Pattern Recognition 2006 年 第 798-805 页 的 文章 “Robust Fragments-based Tracking using 
the Integral Histogram” 介 绍 了 一 种 有 趣 的 方法 ， 即 利用 积分 图 像 在 一 个 图 像 队 列 中 跟踪 
物体 。 

















本 章 包括 以 下 内 容 : 


口 用 形态 学 滤波 器 腐蚀 和 膨胀 图 像 ; 
口 用 形态 学 滤波 器 开启 和 闭合 图 像 ; 
口 用 形态 学 滤波 需 检 测 边缘 和 角 点 ; 
口 用 分 水 岭 算 法 实现 图 像 分 割 |; 

口 用 MSER 算 法 提取 特征 区 域 ; 

口 用 GrabCut 算 法 提取 前 景物 体 。 





5.1 简介 


数学 形态 学 是 一 门 20 世 纪 60 年 代 发 展 起 来 的 理论 , 用 于 分 析 和 处 理 离散 图 像 。 它 定义 了 一 系 
列 运算 , 用 预先 定义 的 形状 元 素 探测 图 像 ， 从 而 实现 图 像 的 转换 。 这 个 结构 元 素 与 像素 领域 的 相 
交 方 式 决定 了 运算 的 结果 。 本章 介 绍 几 种 最 重要 的 形态 学 运算 , 并 探讨 用 基于 形态 学 运算 的 算法 
进行 图 像 分 割 和 特征 检测 的 问题 。 
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腐蚀 和 膨胀 是 最 基本 的 形态 学 运算 ,因此 把 它们 放 在 第 一 节 介 绍 。 数 学 形态 学 中 最 基本 的 
概念 是 结构 元 素 。 结 构 元 素 可 以 简单 地 定义 为 像素 的 组 合 (下 图 的 正方 形 )， 在 对 应 的 像素 上 
定义 了 一 个 原点 ( 也 称 锚 点 )。 形 态 学 滤波 絮 的 应 用 过 程 就 包含 了 用 这 个 结构 元 素 探 测 图 像 中 
每 个 像素 的 操作 过 程 。 把 某 个 像素 设 为 结构 元 素 的 原点 后 ,结构 元 素 和 图 像 重 关 部 分 的 像素 集 
(下 图 的 九 个 阴影 像素 ) 就 是 特定 形态 学 运算 的 应 用 对 象 。 结 构 元 素 原则 上 可 以 是 任何 形状 ， 
但 通常 它 是 一 个 简单 形状 , 如 正方 形 、 圆 形 或 蓉 形 , 并 且 把 中 心 点 作为 原点 ( 主要 是 因为 效率 )， 
如 下 图 : 
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5.2.1 准备 工作 


因为 形态 学 滤波 器 通常 作用 于 二 值 图 像 ， 所 以 我 们 采用 4.1 节 中 通过 阔 值 化 创建 的 二 值 图 像 。 
但 在 形态 学 中 , 我 们 习惯 用 高 像素 值 (白色 ) 表示 前 景物 体 , 用 低 像素 值 (黑色 ) 表示 背景 物体 ， 
因此 我 们 对 图 像 做 了 反 向 处 理 。 






























































在 形态 学 术语 中 ， 下 面 的 图 像 称 为 第 4 章 所 建 图 像 的 补 码 : 





5.2.2 ”如 何 实现 








OpenCV 用 简单 的 函数 实现 腐蚀 和 膨胀 运算 ， 即 cv :erode 和 cv :gilate。 它 们 的 用 法 很 简单 : 
// 读 取 输入 图 像 


cv::Mat image= cv::imread("binary.bmp"); 





// 腐蚀 图 像 
cv::Mat eroded; // 目标 图 像 
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Cv::erode(image,eroded,cv: :Mat ()); 


// 膨胀 图 像 
cv::Mat dilated; // 目标 图 像 
cv::dilate(image,dilated,cv::Mat ()); 


这 些 函 数 生成 的 两 个 图 像 如 下 所 示 。 第 一 个 截图 是 腐蚀 图 像 : 














Eroded Image 














第 二 个 截图 是 膨胀 图 像 : 

















5.2.3 ”实现 原理 


和 其 他 形态 学 滤波 器 一 样 ， 本 节 的 两 个 滤波 器 在 每 个 像素 周 于 的 像素 集 ( 或 相 邻 像素 ) 上 操 
作 ， 具 体 由 结构 元 素 定义 。 在 某 个 像素 上 应 用 结构 元 素 时 ， 结 构 元 素 的 锚 点 与 该 像素 对 齐 ， 所 有 
与 结构 元 素 相交 的 像素 就 包含 在 当前 集合 中 。 腐 蚀 就 是 把 当前 像素 替换 成 所 定义 像素 集合 中 的 最 
小 像素 值 。 膨 胀 是 腐蚀 的 反 运 算 ， 它 把 当前 像素 替换 成 所 定义 像素 集合 中 的 最 大 像素 值 。 由 于 输 
入 的 二 值 图 像 只 包含 黑色 ( 0 ) 和 白色 ( 255 ) 像素 ,因此 每 个 像素 都 会 被 替换 成 白色 或 黑色 像素 。 
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要 形象 化 地 理解 这 两 种 运算 的 作用 ， 可 考虑 背景 (黑色 ) 和 前 景 (白色 ) 的 物体 。 腐 蚀 时 ， 
如 果 结 构 元 素 放 到 某 个 像素 位 置 时 碰 到 了 背景 〈 即 交集 中 有 一 个 像素 是 黑色 的 )， 那 么 这 个 像素 
就 变 为 背景 。 膨 胀 时 ， 如 果 结 构 元 素 放 到 某 个 背景 像素 位 置 时 磁 到 了 前 景物 体 , 那么 这 个 像素 就 
标 为 白色 。 正 因为 如 此 ， 腐 蚀 后 的 图 像 中 物体 尺寸 会 缩小 ( 形状 被 腐蚀 )。 注 意 有 些 面积 较 小 的 
物体 ( 可 看 作 是 背景 中 的 “噪声 ”像素 ) 会 彻底 消失 。 类 似 地 ， 脱 胀 后 的 物体 会 变 大 ， 而 物体 中 
有 些 “ 空 阶 ” 会 被 填 满 。OpenCV 默 认 使 用 3 x 3 正方 形 结构 元 素 。 在 调用 函数 时 ， 参 考 前 面 的 例 
子 将 第 三 个 参数 指定 为 空 矩 阵 ( 即 cv: :Mat () )， 就 能 得 到 默认 的 结构 元 素 。 你 也 可 以 通过 提供 
一 个 和 矩阵 来 指定 结构 元 素 的 大 小 ( 以 及 形状 )， 和 矩阵 中 的 非 零 元 素 即 构成 结构 元 素 。 下 面 的 例子 
使 用 7 x 7 的 结构 元 素 : 


cV: :Mat element (7,7,CV_8U,cv::Scalar(1)); 
cv::erode (image,eroded,element); 


这 次 的 结果 更 有 破坏 性 ， 如 下 图 所 示 : 

























































































Eroded Image (7x7) 一 口 























还 有 一 种 方法 能 得 到 同样 的 结果 , 就 是 在 图 像 上 反复 地 应 用 同一 个 结构 元 素 。 这 两 个 函数 都 
有 一 个 用 于 指定 重复 次 数 的 可 选 参数 : 


// 腐蚀 图 像 三 次 























Cv::erode (image,eroded,cv::Mat (),cv::Point(-1,-1),3); 
参数 cv: : Point (-1, -1) 表 示 原 点 是 矩阵 的 中 心 点 ( 默认 值 )， 可 以 定义 结构 元 素 上 的 任何 














位 置 。 由 此 得 到 的 图 像 与 使 用 7 x 7 结构 元 素 得 到 的 图 像 是 一 样 的 。 实 际 上 ， 对 图 像 腐蚀 两 次 相当 
于 对 结构 元 素 自 身 膨胀 后 的 图 像 进行 腐蚀 。 这 个 规则 也 适用 于 膨胀 。 

最 后 ， 鉴 于 前 景 /背景 概念 有 很 大 的 随意 性 ， 我 们 可 得 到 以 下 的 实验 结论 ( 这 是 腐蚀 /膨胀 运 
算 的 基本 性 质 )。 用 结构 元 素 腐 蚀 前 景物 体 可 看 作对 图 像 背 景 部 分 的 膨胀 ， 因 此 我 们 可 以 得 出 如 
下 实验 结论 : 


口 腐蚀 图 像 相当 于 对 其 反 色 图 像 膨 胀 后 再 取 反 色 ; 
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口 膨胀 图 像 相 当 于 对 其 反 色 图 像 腐 蚀 后 再 取 反 色 。 


5.2.4 扩展 阅读 


虽然 这 里 我 们 将 形态 学 滤波 器 应 用 在 二 值 图 像 上 , 但 这 些 滤波 器 也 能 应 用 在 灰 度 图 像 ， 甚至 
彩色 图 像 上 ， 并 且 方 法 的 定义 是 相同 的 。 


另外 ，OpenCV 的 形态 学 函数 支持 就 地 处 理 。 这 意味 着 输入 图 像 和 输出 图 像 可 以 采用 同一 个 
变量 ， 如 下 : 

















CVv::erode(image, image,cv::Mat ()); 
OpenCV 会 创建 必需 的 临时 图 像 ， 保 证 这 种 方法 能 正常 运行 。 
5.2.5 ”参阅 


口 5.3 节 按 顺 序 使 用 腐蚀 和 膨胀 滤波 器 ， 产 生 新 的 运算 符 ; 
口 5.4 节 在 灰 度 图 像 上 应 用 形态 学 滤波 器 。 








5.3 用 形态 学 滤波 器 开启 和 闭合 图 像 


上 一 节 介 绍 了 两 种 基本 的 形态 学 运算 : 腐蚀 和 膨胀 。 我们 可 以 利用 它们 定义 新 的 运算 。 接 下 
来 两 节 将 讲解 其 中 的 几 种 运算 。 本 节 讲 解 开启 和 闭合 运算 。 





5.3.1 ”如 何 实现 


为 了 应 用 较 高 级 别 的 形态 学 滤波 右 , 需要 用 cv: :morphologyEx 函 数 , 并 传人 对 应 的 函数 代 
码 。 例 如 下 面 的 调用 方法 将 适用 于 闭合 运算 : 
cv::Mat element5(5,5,CV_8U,cv::Scalar(1)); 


cv::Mat closed; 
CVv: :morphologyEx (image,closed,cv::MORPH_ CLOSE,element5); 


注意 ,为 了 让 滤波 器 的 效果 更 加 明显 ,这 里 我 们 使 用 了 5 x 5 的 结构 元 素 。 如 果 输 入 上 节 的 二 
值 图 像 ， 得 到 的 图 像 类 似 于 下 图 : 
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losed Image 


2 可 几 中 - 习 














类 似 地 ， 应 用 形态 学 开启 运算 后 将 得 到 如 下 图 像 : 

















得 到 上 面 图 像 的 代码 是 : 


cv::Mat opened; 
Cv: :morphologyEx(image,opened,cv: :MORPH_ OPEN,element5); 





5.3.2 ”实现 原理 


开启 和 闭合 滤波 器 的 定义 ,只 是 简单 地 使 用 了 基本 的 腐蚀 和 膨胀 运算 。 闭 合 的 定义 是 对 图 像 
先 膨胀 后 腐蚀 。 开 启 的 定义 是 对 图 像 先 腐蚀 后 膨胀 。 


因此 可 以 用 以 下 方法 对 图 像 做 闭合 运算 : 
// 膨胀 原 图 像 


cv::dilate (image,result,cv::Mat ()); 
// 就 地 腐蚀 膨胀 后 的 图 像 


Cv::erode(result,result,cv::Mat ()); 


调换 这 两 个 函数 的 调用 次 序 ， 就 得 到 开启 滤波 器 。 查 看 闭合 滤波 器 的 结果 ,可 看 到 白色 的 前 
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景物 体 中 的 小 空隙 已 经 被 填 满 。 闭 合 滤波 器 也 会 把 邻近 的 物体 连接 起 来 。 基 本 上 ,所 有 小 到 不 能 
完整 容纳 结构 元 素 的 空 孙 或 间隙 ， 都 会 被 财 合 滤波 天 消除 。 

与 闭合 相反 , 开启 滤波 器 消除 了 背景 中 的 几 个 小 物体 。 所 有 小 到 不 能 容纳 结构 元 素 的 物体 都 
会 被 移 除 。 

这 些 滤 波 器 常用 于 目标 检测 。 闭 合 滤波 器 可 把 错误 分 裂 成 小 碎片 的 物体 连接 起 来 ,而 开启 滤 
波 器 可 以 移 除 因 岁 像 噪声 产生 的 斑点 。 因 此 最 好 在 使 用 这 些 滤波 器 时 , 按 一 定 的 顺序 调用 。 在 把 
我 们 测试 用 的 二 值 图 像 成 功 地 闭合 和 开启 后 ,得 到 的 图 像 只 显示 场景 中 的 主要 物体 , 如 下 图 所 示 。 
如 果 优 先 考虑 过 滤 噪 音 ， 可 以 先 开启 后 闭合 ， 但 这 样 做 的 坏处 是 会 消除 掉 部 分 物体 碎片 。 



























































注意 ， 对 一 个 图 像 进行 多 次 同样 的 开启 运算 〈 闭合 运算 也 类 似 ) 是 没有 作用 的 。 事 实 上 ， 因 
为 第 一 次 使 用 开启 滤波 器 时 已 经 填充 了 空 阶 , 再 使 用 同一 个 滤波 器 将 不 会 使 图 像 产生 变化 。 用 数 


学 术语 讲 ， 这 些 运算 是 寡 等 (idempotent ) 的 。 



























































5.3.3 参阅 
在 提取 图 像 中 的 连通 组 件 前 ， 通 常 要 用 开启 和 闭合 运算 来 清理 图 像 。7.5 节 会 详细 解释 这 点 。 





形态 学 滤波 器 也 可 用 于 检测 图 像 中 的 某 些 特征 。 本 节 我 们 将 学 习 如 何 检测 灰 度 图 像 的 边缘 和 
角 点 。 





























5.4.1 准备 工作 
本 节 使 用 这 个 图 像 
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5.4.2 ”如 何 实现 





可 以 用 cv: :morphologyEx 了 因数 的 相关 滤波 器 ， 检 测 图 像 中 的 边缘 。 参 见 以 下 代码 : 


// 用 3 x 3 结构 元 素 得 到 梯度 图 像 | 
cv::Mat result; 


CVv: :morphologyEx (image,result, 
CV: :MORPH_GRADIENT, cv: :Mat ()); 








// 对 图 像 阅 值 化 得 到 一 个 二 值 图 像 
int threshold= 40; 
cv::threshold(result, result, 


threshold, 255, cv::THRESH_BINARY); 


得 到 的 结果 如 下 图 所 示 : 





Edge Image 
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为 了 用 形态 学 检测 角 点 ， 现 在 我 们 定义 MorphoFeatures 类 : 


class 


MorphoFeatures { 


private: 


使 用 形态 学 检测 角 点 的 过 程 比较 复杂 ， 





// 用 于 产生 二 值 图 像 的 阅 值 
int thresholgd; 

// 用 于 检测 角 点 的 结构 元 素 
Cv::Mat_<uchar> cross; 
cv::Mat_<uchar> diamongd; 
Cv::Mat_<uchar> square; 
ovrMat .uclar Ky 

















要 连续 使 用 多 个 不 同 的 形态 学 滤波 器 。 这 是 一 个 使 


需 
用 非 正 方形 结构 元 素 的 典型 案例 。 事实 上 , 这 需要 在 构造 函数 中 定义 四 个 不 同 的 结构 元 素 , 分别 




















MorphoFeatures() : threshold(-1), 


cross(5, 5), diamond(5, 5), square(5, 5), x(5, 5) { 


// 创建 十 字形 结构 元 素 


CIOSS << 
On 0 0 0 
0 0 10 > 0 
二 
Oa Vy Wy OD 
(OR 
// 用 类 似 方法 创建 其 他 结构 元 素 





在 角 点 特征 的 检测 过 程 中 ， 要 依次 应 用 所 有 结构 元 素 ， 得 到 角 点 分 布 


cvV::Mat getCorners(const cv::Mat &image) { 





eV 


{i 


QV 


2 


: :Mat result; 


用 十 字形 元 素 膨胀 


::dilate(image,result,cross); 


用 鞭 形 元 素 腐 蚀 


: :eroqe (result,result,diamongd); 


: :Mat result2; 
用 X 形 元 素 膨 胀 
::dilate(image,result2,x); 


用 正方 形 元 素 腐蚀 


: :erodqe (result2,result2, square); 


比较 两 个 经 过 闭合 运算 的 图 像 ， 得 到 角 点 
::absdiff (result2,result,result); 


是 正方 形 、 获 形 、 十 字形 和 X 形 ( 为 了 简化 ， 所 有 结构 元 素 的 尺寸 都 固定 为 5 x 5 ): 


图 : 
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// 应 用 阅 值 ， 获 得 二 值 图 像 
applyThreshold (result); 


return result; 


} 
然后 可 用 以 下 代码 检测 图 像 中 的 角 点 : 


// 得 到 角 点 
cV::Mat corners; 
Corners= morpho.getCorners (image); 


// 在 图 像 上 显示 角 点 
morpho.drawOnImage (corners, image); 
Cv::namedWindow ("Corners on Image"); 
cv::imshow("Corners on Image",image); 


图 像 中 的 角 点 以 圆 形 标注 ， 如 下 图 所 示 : 











慎 Cornersonlmage 一 











5.4.3 ”实现 原理 








有 一 个 方法 可 帮助 理解 灰 度 图 像 上 形态 学 运算 的 效果 , 就 是 把 图 像 看 作 是 一 个 拓扑 地 貌 ,不 
同 的 灰 度 级 别 代表 不 同 的 高 度 〈 或 海拔 )。 基 于 这 种 观点 ， 明 亮 的 区 域 代表 高 山 ， 黑 上 暗 的 区 域 代 
表 深 谷 。 边 缘 相 当 于 黑暗 和 明亮 像素 之 间 的 快速 过 渡 ， 因 此 可 以 把 边缘 比喻 成 陡峭 的 悬崖 。 腐 他 
这 种 地 形 的 最 终结 果 是 : 每 个 像素 被 替换 成 特定 领域 内 的 最 小 值 ， 从 而 降低 它 的 高 度 。 结 果 是 悬 
崖 被 “腐蚀 ”， 山 谷 扩大 。 膨 胀 的 效果 刚好 相反 ， 即 悬崖 扩大 ， 山 谷 缩 小 。 但 不 管 哪 种 情况 ， 平 
地 〈 即 强度 值 固定 的 区 域 ) 都 会 保持 相对 不 变 。 


根据 这 个 结论 ,可 以 得 到 一 种 检测 图 像 边缘 (或 悬崖 ) 的 简单 方法 ， 即 通过 计算 膨胀 后 的 图 
像 与 腐蚀 后 的 图 像 之 间 的 的 差距 得 到 边缘 。 因 为 这 两 种 转换 后 图 像 的 差别 主要 在 边缘 位 置 , 它们 





相 减 后 ， 边缘 会 很 明显 。 在 cv: :morphology!] 





Ex 消 数 中 输入 cv: :MORPH_GRADII 








ENT 参 数 ， 即 可 


实现 此 功能 。 显 然 ， 结 构 元 素 越 大 ， 检 测 到 的 边缘 就 越 宽 。 这 种 边缘 检测 运算 也 叫 Beucher 梯 度 
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(下 一 章 将 详细 讨论 图 像 梯度 的 概念 )。 注意 还 有 两 种 简单 的 方法 能 得 到 类 似 结果 , 即 膨胀 后 的 
像 减 去 原始 图 像 ， 或 者 原始 图 像 减 去 腐蚀 后 的 图 像 。 那 样 得 到 的 边缘 会 更 窄 。 


角 点 检测 使 用 了 四 个 不 同 的 结构 元 素 ， 因 此 检测 过 程 更 为 复杂 。OpenCV 并 没有 实现 这 个 运 
算 ， 但 我 们 把 它 放 这 里 ,是 为 了 说 明 如 何 定义 和 组 合 不 同形 状 的 结构 元 素 。 它 的 原理 是 通过 使 用 
两 个 不 同 的 结构 元 素 膨 胀 和 腐蚀 图 像 ， 从 而 实现 图 像 的 闭合 运算 。 选 用 这 些 结构 元 素 后 ,直线 的 
边缘 保持 不 变 。 但 因为 它们 各 自 的 作用 ， 拟 角 处 的 边缘 会 受 影响 。 下 面 的 图 像 很 简单 ， 由 单个 白 
色 正 方形 构成 ,我们 用 它 更 好 地 理解 不 对 称 闭 合 运 算 的 效果 : 






















































































第 一 个 正方 形 是 原始 图 像 。 用 十 字形 结构 元 素 膨 胀 后 ,正方 形 的 边缘 扩大 了 , 但 拐角 处 没有 
扩大 ， 因 为 在 拐角 处 十 字形 不 会 形成 正方 形 。 上 图 中 间 的 正方 形 就 对 应 这 种 结果 。 然 后 用 获 形 的 
结构 元 素 腐蚀 膨胀 后 的 图 像 。 这 个 腐蚀 运算 把 大 部 分 边缘 都 推 回 到 原始 位 置 , 但 角 点 因 未 被 膨胀 
会 被 推 得 更 远 。 这 时 得 到 最 右边 的 正方 形 ， 可 以 看 到 它 已 经 失去 了 尖 角 。 用 X 形 和 正方 形 结构 元 
素 重复 上 述 过 程 。 这 两 个 元 素 与 前 面 两 个 类 似 ， 只 是 旋转 了 角度 ,因此 它们 可 捕获 旋转 了 45 度 的 
角 点 。 最 后 比较 两 个 结果 ， 就 可 提取 到 角 点 特征 。 










































































5.4.4 ”参阅 


口 6.4 节 介绍 了 用 于 检测 边缘 的 其 他 滤波 吉 。 

D 第 8 章 展示 了 不 同 的 角 点 检测 算 子 。 

口 J.-F. Rivest、P Soille 和 S. Beucher 发 表 在 ISET% symposium on electronic imaging science and 
technology, SPIE 1992 年 2 月 刊 上 的 文章 “The Morphological gradients” 详 细 论 述 了 形态 学 
梯度 的 概念 。 

口 FY Shih、C.-F. Chuang 和 V. Gaddipati 发 表 在 Pattern Recognition Letters 2005 年 5 月 第 26 卷 第 

7 期 上 的 文章 “A modified regulated morphological corner detector” 提 供 了 更 多 有 关于 形态 

学 角 点 检测 的 信息 。 























5.5 用 分 水 岭 算法 实现 图 像 分 割 


分 水 岭 变 换 是 一 种 流行 的 图 像 处 理 算法 , 用 于 快速 将 图 像 分 割 成 多 个 同 质 区 域 。 它 基于 这 样 
的 思想 : 如 果 把 图 像 看 作 一 个 拓扑 地 貌 ， 那 么 同类 区 域 就 相当 于 陡峭 的 边缘 内 相对 平坦 的 盆地 。 
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因为 算法 很 简单 ， 它 的 原始 版 本 会 过 度 分 割 图 像 ， 产 生 很 多 小 的 区 域 。 因 此 OpenCV 提 出 了 该 算 





法 的 改进 版 本 ,使 用 一 系列 预定 义 标记 来 引导 图 像 分 割 的 定义 方式 。 


5.5.1 如 何 实现 





使 用 分 水 岭 分 割 法 ， 需 要 调用 cv: :watershed 函 数 。 该 函数 的 输入 对 象 是 一 个 标记 图 像 ， 








图 像 的 像素 值 为 32 位 有 符号 整数 ,每 个 非 零 像素 代表 一 个 标签 。 它 的 原理 是 对 图 像 中 部 分 像素 作 

















标记 , 表明 它们 的 所 属 区 域 是 已 知 的 。 





分 水 岭 算 法 可 根据 这 个 初始 标签 确定 其 他 像素 所 属 的 区 域 。 





在 本 节 我 们 将 首先 建立 一 个 标记 图 像 作 为 灰 度 图 像 , 然后 将 其 转换 成 整 型 图 像 。 我 们 把 这 个 步 又 
封装 进 Watersheds gment r 类 。 参见 以 下 代码 : 





class WatershedSegmenter { 


private: 


cv::Mat markers; 


public: 


void setMarkers (const cv::Mat& markerImage) { 


// 转换 成 整数 型 图 像 


markerImage.convertTo (markers,CV_ 32S) ; 


} 


Cv::Mat process(const cv::Mat &image) { 


// 应 用 分 水 岭 


cv: :watershed (image,markers); 


return markers; 


} 





在 不 同 的 程序 中 获得 标记 的 方式 各 不 相同 。 例 如 , 可 在 预 处 理 过 程 中 识别 出 一 些 属 于 某 个 兴 
趣 物 体 的 像素 。 然 后 可 根据 初始 检测 结果 , 使 用 分 水 岭 算 法 划 出 整个 物体 的 边缘 。 本 闻 我 们 将 利 
用 本 章 一 直 使 用 的 二 值 图 像 ， 识 别 出 对 应 原始 图 像 中 的 动物 ( 原始 图 像 见 第 4 章 开 头 部 分 )。 因 此 
我 们 需要 从 二 值 图 像 中 识别 出 属于 前 景 (动物 ) 的 像素 以 及 属于 背景 (主要 是 草地 ) 的 像素 。 这 
里 我 们 把 前 景 像素 标记 为 255,， 背景 像素 标记 为 128 ( 该 数字 是 随意 选择 的 。 任 何不 等 于 255 的 数 
字 都 可 以 使 用 )。 其 他 像素 的 标签 是 未 知 的 ， 标 记 为 0。 




































































现在 , 这 个 二 值 图 像 包含 了 太 多 
算 ， 只 保留 属于 重点 物体 的 像素 : 


// 消除 噪声 和 细小 物体 
cv::Mat fg; 











届 于 图 像 不 同 部 分 的 白色 像素 , 因此 要 对 图 像 做 深度 腐蚀 运 


Cv::erode (binary,fg,cv::Mat(),cv::Point(-1,-1),4); 








得 到 的 图 像 如 下 : 


























注意 , 仍然 有 少量 属于 背景 ( 森林 ) 的 像素 保留 了 下 来 ,不 用 管 它们 ， 可 将 它们 看 作 兴趣 物 
类 似 地 ， 我 们 通过 对 原 二 值 图 像 做 一 次 大 幅度 的 膨胀 运算 来 选中 一 些 背 景 像素 : 

// 标识 不 含 物体 的 图 像 像素 

CvisMat Bg; 


cv::dilate (binary,bg,cv::Mat(),cv::Point(-1,-1),4); 
cv::threshold(bg,bg,1,128,cv: :THRESH_BINARY_INV); 


得 到 的 黑色 像素 对 应 背景 像素 。 因 此 在 膨胀 后 ， 要 立即 通过 阐 值 化 运算 把 它们 赋值 为 128。 
得 到 的 图 像 如 下 : 
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Background Image 一 口 














合并 这 两 个 图 像 得 到 标记 图 像 ， 代 码 为 : 


// 创建 标记 图 像 
cv::Mat markers (binary.size(),CV_8U,cv::Scalar (0)); 
markers= fg+bg; 


注意 这 里 是 如 何 用 
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载运 算 符 + 来 合并 图 像 的 。 下 面 的 图 像 将 被 输入 分 水 岭 算 法 : 
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毫 无 疑问 ,在 这 个 输入 图 像 中 ,白色 区 域 属于 前 景物 体 ， 灰色 区 域 属于 背景 ,而 黑色 区 域 带 
有 未 知 标 签 。 然 后 可 用 下 面 的 方法 来 分 割 图 像 : 


// 创建 分 水 岭 分 害 类 的 对 象 
WatershedSegmenter segmenter; 5 
// 设置 标记 图 像 ， 然 后 执行 分 割 过 程 


segmenter.setMarkers (markers); 
segmenter.process (image); 


上 面 的 代码 会 修改 标记 图 像 ， 每 个 值 为 0 的 像素 都 会 被 赋予 一 个 输入 标签 ， 而 边缘 处 的 像素 
赋值 为 -1。 得 到 的 标签 图 像 如 下 所 示 : 











项; Segmentation 一 口 














边缘 图 像 差 不 多 是 这 样 的 : 




















5.5.2 ”实现 原理 


跟前 面 几 节 一 样 , 我 们 在 描述 分 水 岭 算 法 时 用 拓扑 地 图 来 做 类 比 。 用 分 水 岭 算 法 分 割 图 像 的 
原理 是 从 高 度 0 开始 逐步 用 洪水 淹没 图 像 。 当 “水 ”的 高 度 逐 步 增加 时 〈 到 1、2、3 等 )， 会 形成 
聚 水 的 盆地 。 随 着 盆地 面积 逐步 变 大 ， 两 个 不 同 盆地 的 水 最 终 会 汇合 到 一 起 。 这 时 就 要 创建 一 个 
分 水 岭 , 用 来 分 割 这 两 个 盆地 。 当 水 位 达到 最 大 高 度 时 ,创建 的 盆地 和 分 水 岭 就 组 成 了 分 水 岭 分 
割 图 。 


可 以 想象 ,在 水 济 过 程 的 开始 阶段 会 创建 很 多 细小 的 独立 盆地 。 当 所 有 盆地 汇合 时 ， 就 会 创 
建 很 多 分 水 岭 线条 ， 导 致 图 像 被 过 度 分 割 。 要 解决 这 个 问题 ， 就 要 对 这 个 算法 进行 修改 ， 使 得 水 
渡 的 过 程 从 一 组 预先 定义 好 的 标记 像素 开始 。 每 个 用 标记 创建 的 盆地 , 都 按照 初始 标记 的 值 加 上 
标签 。 如 果 两 个 标签 相同 的 盆地 汇合 ,就 不 创建 分 水 岭 , 以 避免 过 度 分 割 。 调 用 cv: :watershed 
函数 时 就 执行 了 这 些 过 程 。 输 入 的 标记 图 像 会 被 修改 , 用 以 生成 最 终 的 分 水 岭 分 割 图 。 输 入 的 标 
记 图 像 可 以 含有 任意 数值 的 标签 , 未 知 标签 的 像素 值 为 0。 标 记 图 像 的 类 型 选用 32 位 有 符号 整数 ， 
以 便 定 义 超 过 255 个 的 标签 。 另 外 ， 可 以 把 分 水 岭 的 对 应 像素 设 为 特殊 值 -1。 这 是 由 
cv::watetrshed 国 数 返 回 的 。 

为 了 方便 显示 结果 , 我 们 采用 两 种 特殊 方法 。 第 一 种 方法 返回 由 标签 组 成 的 图 像 ( 包含 值 为 
0 的 分 水 岭 )。 该 方法 通过 阔 值 化 很 容易 地 实现 ， 如 下 : 


// 以 图 像 的 形式 返回 结果 
Cv::Mat getSegmentation() { 







































































cv Mat. tmps 
// 所 有 标签 值 大 于 255 的 区 段 都 赋值 为 255 


markers.convertTo (tmp,CV_8U); 


return tmp; 


} 
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类 似 地 ， 第 二 种 方法 返回 一 个 图 像 ， 图 像 中 分 水 岭 线条 赋值 为 0， 其 他 部 分 赋值 为 255。 这 
次 用 cv: :convertTo 方 法 来 获得 结果 ， 如 下 : 


// 以 图 像 的 形式 返回 分 水 岭 
cv::Mat getWatersheds() { 





evsMat tnps 
// 在 变换 前 ， 把 每 个 像素 P 转 换 为 255P + 255 
markers .convertTo (tmpb,CV_8U,255,255) ; 





return tmp; 


} 
在 变换 前 对 图 像 做 线性 转换 ， 使 值 为 -1 的 像素 变 为 0 ( 因为 -1 * 255 +255 =0 )。 


值 大 于 255 的 像素 赋值 为 255。 这 是 因为 有 符号 整数 转换 成 无 符号 字符 型 时 ， 应 用 了 饱和 度 
运算 。 

















5.5.3 扩展 阅读 


很 明显 ,可 以 用 多 种 方法 获得 标记 图 像 。 例 如 ,用户 可 以 交互 式 地 在 场景 中 的 物体 和 背景 
绘制 区 域 。 或 者 ， 当 需要 标识 的 物体 位 于 图 像 中 间 时 ,可 以 简单 地 在 输入 图 像 的 中 心 位 置 标 记 特 
定 标 签 ,在 图 像 边缘 位 置 (假设 背景 在 边缘 位 置 ) 标记 上 另 一 个 标签 。 可 以 用 下 面 的 方法 创建 标 
记 图 像 : 


// 标识 背景 像素 
cv::Mat imageMask (image.size(),CV_8U,cv::Scalar (0)); 
Cv::rectangle(imageMask,cv::Point(5,5), 
cv: :Point (image.cols-5, 
image.rows-5),cv::Scalar (255),3); 
// ”标识 前 景 像素 
// (在 图 像 的 中 心 ) 
cv::rectangle (imageMask, 
cv: :Point (image.cols/2-10,image.rows/2-10), 
cv::Point (image.cols/2+10,image.rows/2+10), 
Gv ocalar(t), 10) 


如 果 把 这 个 标记 图 像 瘙 加 到 实验 图 像 上 ， 将 得 到 下 面 的 图 像 : 





















































这 个 图 像 是 分 水 岭 算 法 得 到 的 结果 : 





慎 ; Watersheds of foregroun... 一 品 











5.5.4 ”参阅 


口 C. Vachier 和 F. Meyer 发 表 在 Journal of Mathematical Imaging and Vision 2005 年 5 月 第 22 卷 第 
2 期 和 第 3 期 上 的 文章 “The viscous watershed transform” 提 供 了 有 关于 分 水 岭 转换 的 更 多 
信息 ; 

口 5.7 节 介绍 了 另 一 种 图 像 分 割 算法 ， 也 能 把 图 像 分 割 为 背景 和 前 景 。 





5.6 用 MSER 算法 提取 特征 区 域 


上 一 节 我 们 学 习 了 如 何 通过 逐步 水 渡 并 创建 分 水 岭 , 把 图 像 分 割 成 多 个 区 域 。 最 大 稳定 极 值 
区 域 ( MSER ) 算法 也 用 相同 的 水 淹 类 比 ， 以 便 从 图 像 中 提取 有 意义 的 区 域 。 创 建 这 些 区 域 时 也 
使 用 逐步 提高 水 位 的 方法 , 但 是 这 次 我 们 关注 的 是 在 水 渡 过 程 中 的 某 段 时 间 内 保持 相对 稳定 的 盆 
地 。 可 以 发 现 ， 这 些 区 域 对 应 着 图 像 中 某 些 物体 的 独特 部 分 。 
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5.6.1 如何 实 现 


计算 图 像 MSER 的 基础 类 是 cv: :MSER。 可 以 用 默认 的 无 参数 构造 函数 创建 这 个 类 的 实例 。 
这 里 我 们 通过 指定 被 检测 区 域 的 最 小 和 最 大 尺寸 对 其 进行 初始 化 , 以 便 限制 它们 的 数量 。 因 此 调 
用 方式 如 下 : 

// 基本 的 MSER 检 测 器 

CV: :MSER mser (5，// 检测 极 值 区 域 时 使 用 的 增 量 


200，// 允许 的 最 小 面积 
1500); // 允许 的 最 大 面积 


现在 ， 可 以 通过 调用 一 个 仿 函 数 来 获得 MSER， 指 定 输入 图 像 和 一 个 相关 的 输出 数据 结构 ， 
代码 如 下 : 


// 点 集 的 容器 

std: :vector<std: :vector<cv::Point>> points; 

// 检测 MSER 特 征 

mser (image, points); 

得 到 的 结果 是 一 个 包含 若干 个 区 域 容 器 ， 每 个 区 域 用 组 成 它 的 像素 点 表示 。 为 了 呈现 结果 ， 
我 们 创建 一 个 空白 图 像 ， 在 图 像 上 用 不 同 的 颜色 显示 检测 到 的 区 域 (颜色 是 随机 选择 的 )。 用 以 
下 代码 实现 : 


// 创建 白色 图 像 
cv::Mat output (image.size(),CV_8UC3); 
GutButs Gv Scalari(255.,255,255)> 





















































// 随机 数 生成 器 
cvsRNG no 


// 针对 每 个 检测 到 的 特征 区 域 
for (std: :Vector<sStd: :Vector<cV: :Point>>:: 
iterator it= points.begin(); 
it!= points.end(); ++it) { 


// 生成 随机 颜色 

CV::Vec3b. c(rng.uniform(0;255); 
rng.uniform(0,255), 
rng.uniform(0,255)); 


// 针对 MSER 集 合 中 的 每 个 点 
for (std::vector<cv::Point>:: 
iterator itPts= it->begin(); 
itPts!= it->end(); ++itPts) { 


/ /不 重 写 MSER 的 像素 
if (output.at<cv::Vec3b>(*itPts) [0]==255) { 


output.at<cv: :Vec3b>(*itPts)= c; 


} 


118 第 5 章 用 形态 学 运算 变换 图 像 








注意 ，MSER 会 形成 层 肆 区 域 。 为 了 显示 全 部 区 域 ， 不 能 重 写 大 区 域内 包含 的 小 区 域 。 如 果 
从 下 图 检测 出 MSER: 














那么 ,最 后 显示 的 图 像 如 下 ( 男 见 彩 图 8 ): 























这 个 检测 结果 并 不 粗糙 。 但 是 可 以 看 出 , 通过 这 种 方法 能 从 图 片 中 提取 到 一 些 有 意义 的 区 域 
(例如 建筑 物 的 窗户 )。 





5.6.2 ”实现 原理 


MSER 使 用 的 原理 与 分 水 岭 算法 相同 ; 即 高 度 为 0~255， 逐 渐 淹没 图 像 。 随 着 水 位 的 增高 ， 
被 严格 界定 黑色 区 域 会 形成 倪 地 ， 并且 会 在 一 段 时 间 内 有 相对 稳定 的 形状 ( 在 水 淹 类 比 下 , 水 位 
高 低 代表 了 像素 值 的 强度 )。 这 些 稳定 的 盆地 就 是 MSER。 检 测 方法 是 ， 观 察 每 个 水 位 连通 的 区 
域 并 测量 它们 的 稳定 性 。 而 测量 稳定 性 的 方法 则 是 比较 当前 区 域 和 水 位 上 升 前 的 区 域 的 面积 。 如 
果 相 对 变化 达到 局 部 最 小 值 ， 就 认为 这 个 区 域 是 MSER。 增 量 值 将 作为 cv: :MSER 类 构造 函数 的 
第 一 个 参数 ， 用 以 测量 相对 稳定 性 ， 其 默认 值 为 5。 另 外 ， 要 注意 ， 区 域 面 积 必须 在 预定 义 的 范 
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围 内 。 构 造 函 数 中 后 面 两 个 参数 ， 就 是 允许 的 最 小 和 最 大 区 域 尺 寸 。 男 外 必须 确保 MSER 是 稳定 
的 (第 四 个 参数 ), 即 形状 的 相对 变化 必须 足够 小 。 一 个 稳定 区 域 可 以 属于 另 一 个 更 大 的 区 域 ( 称 
为 父 区 域 )。 


为 了 确保 有 效 性 ， 一 个 父 MSER 和 它 的 子 区 域 必须 有 足够 大 的 差别 ， 即 差异 限度 。 差 异 限度 
由 cv: :MSER 类 构造 函数 的 第 五 个 参数 指定 。 在 前 面 的 例子 中 ， 最 后 两 个 参数 都 使 用 了 默认 值 。 
( MSER 人 允许 的 最 大 相对 变化 的 默认 值 为 0.25， 父 MSER 与 子 区 域 的 最 小 差别 的 默认 值 为 0.2。) 


MSER 检 测 的 结果 是 一 个 包含 点 集 的 容器 。 由 于 我 们 通常 更 关心 区 域 的 整体 而 不 是 单个 像素 
的 位 置 ， 因 此 普遍 采用 含有 位 置 和 大 小 信息 的 单一 的 几何 形状 来 表示 MSER。 常 用 的 形状 是 带 边 
缘 的 椭圆 。 可 通过 OpenCV 的 两 个 实用 函数 获得 这 些 椭 加 。 第 一 个 是 cv: :minareaRect 函 数 , 它 
会 寻找 包含 集合 中 所 有 像素 点 的 面积 最 小 的 矩形 。 这 个 矩形 可 用 cv: :RotateRect 类 的 实例 表 
示 。 找 到 这 个 带 边框 的 矩形 后 ， 就 可 以 用 cv: :ellipse 函 数 在 图 像 上 画 出 内 切 椭圆 。 我 们 把 这 
个 完整 的 过 程 封 装 进 一 个 类 ， 这 个 类 的 构造 函数 和 cv : :MSER 类 的 构造 函数 基本 相同 。 参 见 以 下 
代码 : 


class MSERFeatures { 

































































private: 


CV: :MSER mser; // MSER 检 测 器 
double minAreaRatio; // 额外 的 排斥 参数 


public: 


MSERFeatures ( 
// 允许 的 尺寸 范围 
int minArea=60, int maxArea=14400, 
// MSER 面 积 / 带 边框 矩形 面积 之 比 的 最 小 值 
double minAreaRatio=0.5, 
// 用 以 测量 稳定 性 的 增 量 值 
int delta=5, 
// 最 大 允许 面积 变化 量 
double maxVariation=0.25, 
// 子 区 域 和 父 区 域 之 间 差 距 的 最 小 值 
double minDiversity=0.2): 
mser (delta,minArea,maxArea, 
maxVariation,minDiversity), 
minAreaRatio (minAreaRatio) {} 


加 入 了 一 个 额外 的 参数 (minAreaRatio ), 当 MSER 的 面积 与 它 对 应 的 带 边框 矩形 的 面积 
别 太 大 时 ， 就 可 以 使 用 这 个 参数 把 MSER 消 除 。 这 样 可 清理 掉 不 需要 大 关注 的 细 长 形状 。 
用 下 面 的 方法 计算 代表 MSER 的 带 边框 矩形 的 列表 : 


// 得 到 对 应 每 个 MSER 特 征 的 旋转 带 边框 的 矩形 
// 如 果 (MSER 面 积 / 矩形 面积 ) < areaRatio， 就 清除 这 个 特征 























120 第 5 章 用 形态 学 运算 变换 图 像 





void getBoundingRects (const cv: :Mat &image， 
std: :vector<cv::RotatedRect> &rects ) 


// 检测 MSER 特 征 
std: :vector<std: :Vector<cV: :Point>> points; 
mser (image, points); 


// 针对 每 个 检测 到 的 特征 
for (std::vector<std: :Vector<CV: :Point>>: : 
iterator it= points.begin(); 
it!= points.end(); ++it) { 


// 提取 带 边框 的 矩形 
cv: :RotatedRect rr= cv::minAreaRect (*it); 


// 检查 面积 比例 
if (it->size() > minAreaRatio*rr.size.area()) 
rects.push_ back (rr); 


} 
用 下 面 的 方法 在 图 像 上 面 出 对 应 的 椭圆 : 


// 画 出 对 应 每 个 MSER 的 旋转 栅 辆 

cv::Mat getImageOfEllipses (const cv::Mat &image, 
std::vector<cv::RotatedRect> &rects, 
CV OGLar COLOL=255) f 








// 画 到 这 个 图 像 上 
cv::Mat output= image.clone(); 


// 得 到 MSER 特 征 
getBoundingRects (image, rects); 


// 针对 每 个 检测 到 的 特征 
for (Std: :Vector<cV::RotatedqRect>: : 
iterator it= rects.begin(); 
it!= rects.end(); ++it) { 


cv::ellipse (output,*it,color); 


return output,; 


} 
然后 用 以 下 代码 检测 MSER: 


// 创建 MSER 特 征 检 测 器 的 实例 





MSERFeatures mserF (200, // 最 小 面积 
1500, // 最 大 面积 
025)3 // 面积 比率 阅 值 


// 使 用 默认 增 量 值 


// 存放 带 边 框 的 旋转 矩形 的 容器 


{ 
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std: :vector<cv: :RotatedRect> rects; 


// 检测 并 取得 图 像 
Cv::Mat result= mserF.getIimageOfEllipses (image,rects); 


将 这 个 函数 应 用 到 前 面 用 到 的 图 像 中 ， 得 到 的 图 像 如 下 : 








硬 MSER regions 一 口 














将 这 个 结果 和 前 面 的 结果 做 比较 ， 就 会 发 现 后 一 种 展现 方式 更 容易 解读 。 注 意 有 的 子 MSER 
和 父 MSER 的 椭圆 非常 接近 。 这 种 情况 下 ， 可 以 针对 椭圆 使 用 一 个 最 小 变化 限 值 ， 以 便 清理 掉 重 
复 的 椭圆 。 


5.6.3 参阅 


口 7.6 节 将 介绍 计算 连通 点 集 的 其 他 属性 的 方法 。 
口 第 8 章 将 解释 如 何 把 MSER 作 为 兴趣 点 检测 器 。 





5.7 用 GrabCut 算法 提取 前 景物 体 


OpenCV 实 现 了 另 一 种 常用 的 图 像 分 割 算法 : GranCut 算 法 。 它 并 不 是 基于 数学 形态 学 的 , 但 
是 在 用 法 上 与 前 面 的 分 水 岭 分 割 算法 比较 相似 ， 因 此 把 它 放 在 这 里 讲述 。GrabCut 的 计算 速度 比 
分 水 岭 算 法 要 慢 , 但 是 得 到 的 结果 通常 更 精确 。 如 果 要 从 静态 图 像 中 提取 前 景物 体 ( 例如 从 一 个 
图 像 剪 切 物体 粘贴 到 另 一 个 图 像 )， 采用 GrabCut 算 法 是 最 好 的 选择 。 














5.7.1 如 何 实现 


cv: :grabcut 函 数 的 用 法 非常 简单 。 只 需要 输入 一 个 图 像 , 并 对 一 些 像素 做 上 属于 背景 或 属 
于 前 景 的 标记 。 算法 会 根据 这 个 局 部 的 标记 ， 计 算出 整个 图 像 中 前 景 /背景 的 分 割 线 。 
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为 输入 图 像 指 定局 部 的 前 景 /背景 标签 ,方法 之 一 就 是 定义 一 个 包含 前 景物 体 的 矩形 : 


// 定义 一 个 带 边 框 的 矩形 
// 矩形 外 部 的 像素 会 被 标记 为 背景 
cV: :Rect rectangle(5,70,260,120); 





划 Image with rectangle = 

















和 矩形 外 部 的 像素 都 会 被 标记 为 背景 。 调 用 cv: :grabcut 时 ， 除 了 需要 输入 图 像 和 分 割 后 的 
图 像 ， 还 需要 定义 两 个 和 矩阵， 用 于 存放 算法 构建 的 模型 ， 代 码 如 下 : 
cvV::Mat result; // 分 割 结 果 (4 种 可 能 的 值 ) 


cv: :Mat bgModel,fgModel; // 模型 (内 部 使 用 ) 
// GrabCut 分 割 算法 





cv: :grabcut (image, // 输入 图 像 
result, // 分 割 结果 
rectangle， // 包含 前 景 的 矩形 
bgModel,fgModel，// 模型 
By // 迭代 次 数 


CV::GC_INIT_WITH_RECT); // 使 用 纶 形 


注意 , 我 们 在 函数 的 中 用 cv: :Gc_INIT_WITH_REcT 标 志 作为 最 后 一 个 参数 ,表示 将 使 用 带 
边框 的 矩形 模型 ( 后面 会 讨论 其 他 模式 )。 输 入 /输出 的 分 割 图 像 可 以 是 以 下 四 个 值 之 一 。 


D cv: :GC_BGD: 这 个 值 表示 明确 属于 背景 的 像素 ( 例如， 本 例 中 矩形 以 外 的 像素 )。 

口 cv: :GC_FGD: 这 个 值 表示 明确 属于 前 景 的 像素 ( 本 例 中 没有 这 种 像素 )。 

口 cv: :GC_PR_BGD: 这 个 值 表示 可 能 属于 背景 的 像素 。 

口 cv: :GC_PR_FGD: 这 个 值 表示 可 能 属于 前 景 的 像素 ( 即 本 例 中 算 形 内 像素 的 初始 值 )。 


通过 提取 值 为 cv: :Gc_PR_FGD 的 像素 ， 可 得 到 含 分 割 信息 的 二 值 图 像 。 参 见 以 下 代码 ; 


// 取得 标记 为 “可 能 属于 前 景 ”的 像素 

cV: :compare (result,cv::GC_ PR_FGD,result,cyv::CMP_ EQO); 

// 生成 输出 图 像 

cv::Mat foreground (image.size(),CV_8UC3, 
CVviiScalar(255;255.,255))3 

image.copyTo (foreground,// 不 复制 背景 像素 
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result); 


提取 所 有 前 景 像素 , 即 值 为 cv: :GC_FGD 或 cv: :GC_PR_FGD 的 像素 ,可 以 检查 数值 的 第 一 位 ， 
代码 如 下 : 

// 用 按 位 与 运算 检查 第 一 位 

result= result&1; // 如 果 是 前 景 像素 ,结果 为 1 

这 是 因为 ， 这 几 个 常量 定义 的 值 为 1 和 3 ， 而 另外 两 个 (cv: :GC_BGD 和 cv::GC_PR_BGD ) 
定义 为 0 和 2。 本 例 中 ， 因 为 分 割 图 像 不 含 cv: :Gc_FGD 像 素 (只 输入 了 cv: :cc_BGD 像 素 )， 所 以 
得 到 的 结果 是 一 样 的 。 

最 后 ， 用 以 下 带 扼 码 的 复制 操作 得 到 前 景物 体 的 图 像 (在 白色 背景 上 ): 

// 生成 输出 图 像 

cvV: :Mat foreground (image.size(),CV_8UC3, 

cv::Scalar(255,255,255)); // 全 部 为 白色 的 图 像 


image .copymTo (foreground,result); // 不 复制 背景 像素 


得 到 的 结果 是 如 下 图 像 : 
































Foreground objects 一 号 


da 


“a 











5.7.2 ”实现 原理 


在 前 面 的 例子 中 ， 只 需要 指定 一 个 包含 前 景物 体 的 矩形 ，GrabCut 算 法 就 能 提取 出 它们 。 此 
外 ， 还 可 以 把 分 割 图 像 中 的 几 个 特定 像素 赋值 为 cv: :GCc_BGD 和 cv: :Gc_FGD， 并 把 这 个 分 制图 
像 作为 cv: :grapbcut 函 数 的 第 二 个 参数 。 然 后 在 输入 模式 中 指定 Gc_INIT_WITH_MASK。 有 多 种 
方式 可 获得 这 些 输入 标签 , 例如 提示 用 户 在 图 像 中 交互 式 地 标记 一 些 元 素 。 也 可 以 结合 使 用 这 两 
种 输入 模式 。 


利用 这 个 输入 信息 ，GrabCut 算 法 用 以 下 步骤 进行 背景 /前 景 分 割 。 首 先 ， 把 所 有 未 标记 的 像 
素 临时 标 为 前 景 (cv: :GC_PR_FGD )。 基 于 当前 的 分 类 情况 , 算法 把 像素 划分 为 多 个 颜色 相似 的 
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组 〈 即 K 个 背景 组 和 K 个 前 景 组 )。 下 一 步 是 通过 引入 前 景 和 背景 像素 之 间 的 边缘 ， 来 确定 背景 
前 景 的 分 割 。 这 将 通过 一 个 优化 过 程 来 实现 ,过 程 中 试图 连接 具有 相似 标记 的 像素 , 并 且 避 免 在 
强度 相对 一 致 的 区 域 上 放置 边缘 。 使 用 Graph Cuts 算 法 可 以 高 效 地 解决 这 个 优化 问题 。 此 算法 用 
这 种 方式 来 寻找 最 优 的 解决 方案 : 把 问题 表示 成 一 副 连 通 的 图 形 ,然后 在 图 形 上 进行 切割 ,以 形 
成 最 优 的 形态 。 分 割 完 成 后 ， 像 素 会 有 新 的 标记 。 然 后 重复 这 个 分 组 过 程 ， 找 到 新 的 最 优 分 割 方 
案 ， 如 此 反复 。 因 此 ，GrabCut 算 法 是 一 个 逐步 改进 分 割 结果 的 迭代 过 程 。 根 据 场景 的 复杂 程度 ， 
找到 最 佳 方案 所 需 的 迭代 次 数 各 不 相同 〈 对 于 简单 的 情况 ， 和 迭代 一 次 就 足够 了 )。 

这 解释 了 函数 中 用 来 表示 迭代 次 数 的 参数 。 算 法 内 部 用 到 了 两 个 模型 ,它们 被 作为 函数 的 参 
数 传 人 (并 返回 )。 因 此 ， 如 果 和 希望 通过 执行 额外 的 迭代 过 程 来 改进 分 割 结果 ， 可 以 在 调用 函数 
时 重复 使 用 上 次 运行 的 模型 。 
















































































5.7.3 ”参阅 


口 C. Rother、V. Kolmogorov 和 A. Blake 发 表 在 4CM Transactions on Graphics (SIGGRAPH) 
2004 年 8 月 第 23 卷 第 3 期 上 的 文章 “GrabCut: Interactive Foreground Extraction using Iterated 
Graph Cuts” 详 细 描 述 了 GrabCut 算 法 。 


第 6 章 


像 滤 波 








本 章 包 括 以 下 内 容 : 

口 用 低 通 滤波 器 进行 图 像 滤 波 ; 
口 用 中 值 滤波 器 进行 图 像 滤 波 ; 
口 用 定向 滤波 器 检 测 边缘 ; 

口 计算 图 像 的 拉 普 拉 斯 算 子 。 

















6.1 简介 


滤波 是 信号 和 图 像 处 理 中 的 一 种 基本 操作 。 它 的 目的 是 选择 性 地 提取 图 像 中 某 些 方面 的 内 6 
容 , 这 些 内 容 在 特定 应 用 环境 下 传达 了 重要 信息 。 滤 波 可 去 除 图 像 中 的 噪声 ,提取 有 用 的 视觉 特 
征 ， 对 图 像 重新 采样 ， 等 等 。 它 起 源 于 通用 的 信号 和 系统 理论 。 这 里 不 对 这 个 理论 作 详 细 解 释 。 
本 章 将 介绍 几 个 有 关 滤 波 的 重要 概念, 并 演示 如 何在 图 像 处 理 程序 中 使 用 滤波 器 首先 简要 解释 
一 下 频 域 分 析 的 概念 。 


当 观 察 一 幅 图 像 时 ， 我 们 看 到 不 同 的 灰 度 级 (或 颜色 ) 在 图 像 上 的 分 布 状况 。 图 像 之 间 的 区 
别 ， 就 在 于 它们 有 不 同 的 灰 度 级 分 布 方式 。 然 而 ， 也 可 以 从 其 他 角度 进行 图 像 分 析 。 我 们 可 以 看 
到 图 像 中 灰 度 级 的 变化 。 有 些 图 像 含有 大 片 强度 值 几乎 不 变 的 区 域 (如 蓝天 ), 而 对 于 其 他 图 像 ， 
灰 度 级 的 强度 值 在 整 幅 图 像 上 的 变化 很 大 〈 例如 由 大 量 细小 物体 构成 的 混乱 场景 )、 因 此 产生 了 
另 一 种 描述 图 像 特性 的 方式 ， 即 观察 上 述 变化 的 频率 。 这 种 特征 称 为 频 域 ( frequency domain ); 
而 通过 观察 灰 度 分 布 来 描述 图 像 特征 ， 称 为 空域 ( spatial domain )。 


频 域 分 析 把 图 像 分 解 成 从 低频 到 高 频 的 频率 成 分 。 图 像 强度 值 变化 慢 的 区 域 只 包含 低频 率 ， 
而 强度 值 快 速 变化 的 区 域 产生 高 频率 。 有 几 种 著名 的 变换 法 可 用 来 清楚 地 显示 图 像 的 频率 成 分 ， 
例如 傅 里 叶 变换 或 余弦 变换 。 图 像 是 二 维 的 , 因此 频率 分 为 两 种 , 即 垂直 频率 ( 垂直 方向 的 变化 ) 
和 水 平 频率 ( 水 平方 向 的 变化 )。 


在 频 域 分 析 框 架 下 ,小波 器 是 一 种 放大 图 像 中 某 些 频段 ,同时 滤 掉 (或 减弱 ) 其 他 频段 的 算 
子 。 低 通 滤波 器 的 作用 是 消除 图 像 中 高 频 部 分 ; 高 通 滤波 器 刚好 相反 ,其 作用 是 消除 图 像 中 低频 
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部 分 。 本 章 将 介绍 几 种 在 图 像 处 理 领 域 常用 的 滤波 器 ， 并 解释 它们 对 图 像 所 起 的 作用 。 


6.2 低 通 滤波 器 


本 节 将 介绍 几 种 非常 基本 的 低 通 滤波 器 。 在 本 章 的 简介 部 分 , 我 们 已 经 知道 这 种 滤波 器 目的 
是 减少 图 像 变化 的 幅度 。 要 做 到 这 点 ,一 个 简单 的 方法 是 把 每 个 像素 的 值 蔡 换 成 它 周围 像素 的 平 
均值 。 这 样 一 来 ， 强 度 的 快速 变化 会 被 消除 ， 代 之 以 更 加 平滑 的 过 渡 。 



































6.2.1 ”如 何 实现 


cv: :blur 国 数 将 每 个 像素 的 值 蔡 换 成 该 像素 邻 域 的 平均 值 ( 邻 域 是 矩形 的 ) 从 而 使 图 像 更 
加 平滑 。 这 个 低 通 滤波 器 的 用 法 如 下 : 

















cvV::blur(image,zesult， 
cv::Size(5,5)); // 滤波 器 尺寸 


这 种 滤波 器 也 称 为 块 滤波 器 (box filter )。 为 了 让 效果 更 加 明显 ， 这 里 我 们 使 用 尺寸 为 5 x 5 
的 滤波 器 。 先 看 下 面 的 图 像 : 














a Original Image 











使 用 滤波 顺 后 得 到 的 结果 如 下 : 





im Mean filtered Image 一 口 


一 一 
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有 时 需要 让 邻 域内 较 近 的 像素 具有 更 高 的 重要 度 。 因 此 可 计算 加 权 平 均值 , 即 较 近 的 像素 比 
较 远 的 像素 具有 更 大 的 权重 。 要 得 到 加 权 平 均值 ， 可 采用 依据 高 斯 函数 ( 即 “ 钟 形 曲线 ”函数 ) 
制定 的 加 权 策略 。 函 数 cv: :GaussianBlur 应 用 了 这 种 滤波 器 ， 调 用 方法 如 下 : 














cv::GaussianBlur (image, 
result，cv::Size(5,5)，// 滤波 器 尺寸 
1.5); ”// 控制 高 斯 曲线 形状 的 参数 


得 到 的 结果 如 下 : 





加 | 


国 | Gaussian filtered Image 一 




















6.2.2 ”实现 原理 


如 果 用 邻 域 像素 的 加 权 累 加 值 来 蔡 换 像素 值 , 我 们 就 说 这 种 滤波 器 是 线性 的 。 这 里 使 用 了 均 
值 滤波 器 ， 即 将 矩形 邻 域内 的 全 部 像素 累加 ， 除 以 该 邻 域 的 数量 〈 即 求 平均 值 )， 然 后 用 这 个 平 
均值 蔡 换 原 像 素 的 值 。 这 相当 于 把 邻 域 中 每 个 像素 乘 以 1 ， 然 后 进行 累加 。 也 可 以 把 邻 域 中 每 个 
像素 位 置 对 应 的 放大 系数 存放 在 一 个 矩阵 中 , 用 这 个 矩阵 表示 滤波 器 的 不 同 权重 。 和 矩阵 中 心 的 元 
素 对 应 当前 正在 应 用 滤波 器 的 像素 。 这 样 的 矩阵 也 称 为 内 核 或 掩 码 。 对 于 一 个 3 x 3 均值 滤波 器 ， 
其 对 应 的 内 核 可 能 是 这 样 的 : 























1/9 1/9 1/9 
1/9 1/9 1/9 
1/9 1/9 1/9 


函数 cv: :boxFilter 对 图 像 做 滤波 时 , 使 用 了 一 个 仅 由 1 组 成 的 正方 形 内 核 。 它 与 均值 滤波 
器 类 似 ， 但 不 会 除 以 系数 的 数量 。 


应 用 一 个 线性 滤波 器 , 相当 于 将 内 核 移动 到 图 像 的 每 个 像素 上 ,并 将 每 个 对 应 像素 乘 以 它 的 
权重 。 这 个 运算 在 数学 上 称 为 卷 积 ， 规 范 的 写法 如 下 : 
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Ts p= 2 2 Triy- DK) 
在 这 个 双重 求 和 过 程 中 ,位 于 (x,y ) 的 当前 像素 与 X 内 核 的 中 心 点 对 齐 ， 并 假定 它 位 于 坐标 
(0,0) 处 。 


观察 本 节 产 生 的 输出 图 像 ， 可 以 发 现 低 通 滤波 器 的 最 终 效 果 是 使 图 像 更 加 模糊 或 更 加 平滑 。 
这 不 奇怪 , 因为 低 通 滤波 器 减弱 了 高 频 成 分 , 而 高 频 成 分 正好 对 应 了 物体 边缘 处 的 快速 视觉 变化 。 


对 于 高 斯 滤波 器 ， 像 素 对 应 的 权重 与 它 到 中 心 像素 之 间 的 距离 成 正比 。 一 维 高 斯 函数 的 公 
式 为 : 





























GOD = 4e 2 





使 用 归 一 化 系数 4， 是 为 了 确保 各 个 权重 的 累加 和 等 于 1。 符 号 c (sigma， 和 希腊 字母 西格玛 ) 
的 值 决定 了 高 斯 函数 曲线 的 宽度 。 这 个 值 越 大 ， 函数 曲线 就 越 遍 平 。 例 如 计算 一 维 高 斯 滤波 器 的 
系数 ， 区 间 [-4, 0,4]， 如 果 c = 0.5， 得 到 如 下 系数 : 






































[0.0 0.0 0.00026 0.10645 0.78657 0.10645 0.00026 0.0 0.0] 
如 果 c= 1.5， 得 到 的 系数 为 : 


[0.00761 0.036075 0.10959 0.21345 0.26666 
0.21345 0.10959 0.03608 0.00761 |] 


注意 ， 计 算 这 些 系数 的 方法 是 用 对 应 的 oc 的 值 ， 调 用 函数 cv: :getGaussianKernel: 





Cv::Mat gauss= cv::getGaussianKernel (9, sigma,CV_ 32F); 


高 斯 函数 是 一 个 对 称 钟 形 曲线 ， 这 使 它 非常 适合 用 于 滤波 。 参 见 下 图 : 
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离 中 心 点 越 远 的 像素 权重 越 低 , 这 使 像素 之 间 的 过 渡 更 加 平滑 。 与 之 相反 , 使 用 扁平 的 均值 
滤波 器 时 ,， 远 处 的 像素 会 使 当前 平均 值 发 生 突变 。 从 频率 上 看 ,这 意味 着 均值 滤波 器 并 没有 消除 
全 部 高 频 成 分 。 


要 在 图 像 上 应 用 二 维 高 斯 滤波 器 ,只 需 先 在 横向 线条 上 应 用 一 维 高 斯 滤波 器 ( 过 滤 水 平方 向 
的 频率 )， 然 后 在 纵向 线条 上 应 用 另 一 个 一 维 高 斯 滤波 器 (过 滤 垂直 方向 的 频率 )。 这 是 因为 ,高 
斯 滤波 器 是 一 种 可 分 离 的 滤波 器 ( 也 就 是 说 ， 二 维 内 核 可 分 解 成 两 个 一 维 滤波 器 )。 要 应 用 普通 
的 可 分 离 滤波 器 ， 可 使 用 cv: :sepFilter2D 函 数 。 也 可 以 用 cv: :filter2D 困 数 直 接应 用 二 维 
内 核 。 由 于 可 分 离 滤波 器 所 用 的 乘法 运算 更 少 ， 因 此 它 的 计算 速度 通常 比 不 可 分 离 滤波 器 要 快 。 


在 OpenCV 中 ， 要 对 图 像 应 用 高 斯 滤波 句 ， 需 要 调用 函数 cv: :GaussianBlur， 并 且 提 供 系 
数 的 个 数 (第 三 个 参数 ， 必 须 是 奇数 ) 和 c 的 值 (第 四 个 参数 )。 也 可 以 只 设置 o 的 值 ， 由 OpenCV 
决定 系数 的 个 数 ( 输入 滤波 器 尺寸 的 值 为 0 )。 反 过 来 也 可 以 ， 即 输入 参数 时 提供 尺寸 的 数值 ，c 
值 为 0。 函 数 会 自行 判断 最 适合 尺寸 的 c 值 。 































































































6.2.3 扩展 阅读 


调整 图 像 大 小 时 也 要 使 用 低 通 滤波 器 , 本 节 将 解释 这 么 做 的 原因 。 调 整 图像 大 小 时 还 可 能 需 
要 插入 像素 值 ， 本 节 也 将 讨论 这 方面 内 容 。 

1. 缩减 像素 采样 
也 许 你 会 觉得 ， 要 缩小 一 个 图 像 ， 只 需 简单 地 消除 图 像 中 的 一 部 分 行 和 列 。 可 惜 ， 这么 做 得 
到 的 图 像 效 果 很 差 。 下 面 的 图 片 说 明了 这 点 ， 它 是 由 测试 用 的 图 像 缩 小 到 1/4 后 得 到 的 ， 缩 小 的 
方式 是 每 四 行 ( 列 ) 像素 中 保留 一 行 ( 列 )。 注意 ,为 了 让 图 像 的 缺陷 看 起 来 更 明显 ， 每 个 像素 
按 原 大 小 的 两 倍 进行 显示 ， 从 而 放大 了 图 像 (下 一 闻 将 解释 如 何 实现 )。 参见 下 面 的 图 片 : 















































n Badly reduced 一 DD 




















可 以 发 现 , 这 个 图 像 的 质量 明显 降低 了 。 例如 原始 图 像 中 城堡 项 部 倾斜 的 边缘 ,在 缩小 后 的 
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图 像 中 看 起 来 像 是 楼 梯 。 图 像 的 纹理 部 分 也 能 看 到 锯齿 状 的 变形 ( 如 砖 墙 


这 些 令 人 讨厌 的 伪 影 是 一 种 叫 作 空间 假 频 的 现象 造成 的 。 当 你 试图 在 图 像 中 包含 高 频 成 分 ， 
但 是 图 像 太 小 无 法 包含 时 ， 就 会 出 现 这 种 现象 。 实 际 上 , 在 小 图 像 ( 即 像 素 较 少 的 图 像 ) 中 展现 
精致 纹理 和 减 税 边缘 ， 效 果 不 如 较 高 分 辩 率 的 图 像 ( 想 想 高 清 电视 机 和 普通 电视 机 的 差别 )。 
像 中 精致 的 细节 对 应 着 高 频 ， 因此 我 们 需要 在 缩小 图 像 之 前 去 除 它 的 高 频 成 分 。 通 过 学 习 本 节 内 
容 , 我 们 知道 这 可 以 用 低 通 滤波 器 实现 。 因 此 在 删除 部 分 列 和 行 之 前 ,必须 首先 在 原始 图 像 上 应 
用 低 通 滤波 器 ， 这 样 才能 使 图 像 在 缩小 到 四 分 之 一 后 不 出 现 伪 影 。 这 是 用 OpenCV 的 实现 方法 : 

// 首先 去 除 高 频 成 分 

cv::GaussianBlur (image, image,cv::Size(11,11),2.0); 

// 每 4 个 像素 中 ， 只 保留 1 个 

cvV::Mat redquced2 (image.rows/4,image.cols/4,CV_8U); 

for (int i=0; i<reduced2.rows; i++) 


for (int j=0; j<reduced2.cols; j++) 
reduced2.at<uchar>(i,j)= image.at<uchar> (i*4,j*4); 


得 到 的 图 像 如 下 : 
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加 | Reduced Image 一 
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当然 了 ， 这 个 图 像 丢失 了 一 些 精 致 的 细节 ， 但 是 总 体 上 看 ， 它 的 视觉 质量 比 前 面 的 要 好 。 
你 也 可 以 用 OpenCV 的 一 个 专用 函数 实现 图 像 缩小 。 即 cv: :pyzrDown 函 数 : 


cv::Mat reducedImage; // 用 于 存储 缩小 后 的 图 像 
cv: :pyrDown (image,reducedImage); // 图 像 尺 寸 缩 小 一 半 


上 述 函 数 使 用 一 个 5 x 5 的 高 斯 滤波 器 , 在 把 图 像 缩小 一 半 之 前 先进 行 低 通 滤波 。 此 外 还 有 功 
能 相反 的 函数 cv: :pyrUp, 可 以 放大 图 像 的 尺寸 。 这 种 提升 像素 采样 的 过 程 ， 是 先 在 每 两 行 和 两 
列 之 间 分 别 插入 值 为 0 的 像素 , 然后 对 扩展 后 的 图 像 应 用 同样 的 5 x 5 高 斯 滤波 带 (但 系数 要 扩大 4 
倍 )。 先 缩小 后 放大 一 个 图 像 ， 显 然 不 能 完全 恢复 到 原始 图 像 。 缩 小 过 程 中 丢失 的 信息 是 无 法 恢 
复 的 。 这 两 个 函数 可 用 来 创建 图 像 金 字 塔 。 它 是 一 个 数据 结构 ， 由 一 个 图 像 不 同 尺寸 的 版 本 堆 秋 
起 来 ( 这 里 每 层 的 图 像 的 尺寸 是 后 一 层 的 2 信 ， 但 是 这 个 比例 还 可 以 更 小 ， 例 如 1.2 )， 经 常用 于 
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高 效 的 图 像 分 析 。 例如 , 如 果 要 在 图 像 中 检测 一 个 物体 , 可 以 首先 在 金字 塔 顶部 的 小 图 像 上 检测 。 
当 定 位 到 关注 的 物体 时 ， 在 金字 塔 的 更 低层 次 进行 更 精细 的 搜索 ， 更 低层 次 的 图 像 分 辨 率 更 高 。 

此 外 还 有 一 个 更 通用 的 函数 cv: :resize， 可 以 指定 缩放 后 图 像 的 尺寸 。 只 需要 在 调用 它 时 
间 定 新 的 尺寸 ， 该 尺寸 可 以 比 原 始 图 像 更 小 ， 也 可 以 更 大 : 

cv::Mat resizedImage; // 用 于 存储 缩放 后 的 图 像 

cv::resize (image,resizedImage, 


cv::Size(image.cols/4,image.rows/4)); // 行 和 列 均 缩小 为 原来 的 1/4 


也 可 以 指定 缩放 比例 。 在 参数 中 提供 一 个 空 的 图 像 实例 ， 然 后 提供 缩放 比例 : 

















cv::resize (image,resizedIimage, 
cv::Size()，1.0/4.0，1.0/4.0); // 缩小 为 原来 的 1/4 


最 后 一 个 参数 可 用 来 选择 重新 采样 时 使 用 的 插值 方法 。 这 在 下 面 的 段落 中 介绍 。 
2. 像素 插值 


图 像 按 比例 缩放 后 ,必须 进行 像素 插值 ， 以 便 在 原 像素 之 间 的 位 置 插入 新 的 像素 值 。 通用 的 
图 像 重 映射 ( 见 2.8 节 )， 属于 男 一 种 需要 像素 插值 的 情况 。 


进行 插值 的 最 基本 方法 是 使 用 最 近邻 策略 。 把 待 生 成 图 像 的 像素 网 格 放 在 原 图 像 的 上 方 , 每 
个 新 像素 被 赋予 原 图 像 中 最 邻近 像素 的 值 。 当 图 像 升 采样 时 ( 即 新 网 格 比 原始 网 格 更 密集 时 )， 6 
意味 着 新 网 格 中 有 多 于 一 个 的 像素 会 采用 原 网 格 中 同一 个 像素 的 值 。 


例如 要 把 上 面 缩小 后 的 图 像 放 大 3 倍 ， 采 用 最 邻近 插值 法 (通过 插值 标志 cv: :INTER_ 
NEAREST 实 现 )， 代 码 如 下 : 





















































cv::resize (reduced, newImage, 
Cv::Size(), 3, 3,cVv::INTER_ NEAREST); 


得 到 的 结果 如 下 : 





二 Nearest-neighbor resizing 一 口 
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本 例 中 的 插值 算法 简单 地 把 每 个 像素 的 尺寸 乘 以 3 ( 这 也 是 上 一 节 生 成 图 像 的 方法 ) 更 好 的 
做 法 是 在 插入 新 的 像素 值 时 , 结合 多 个 邻近 像素 的 值 。 因此, 可 利用 周围 四 个 像素 的 值 线性 地 计 
算 新 像素 值 ， 如 下 图 所 示 : 














具体 过 程 为 , 首先 在 新 增 像素 的 左 侧 和 右 侧 垂直 地 插入 两 个 像素 值 。 然后 利用 这 两 个 插入 的 
像素 (上面 图 片 中 的 灰色 部 分 )， 在 预定 的 位 置 水 平地 插入 像素 值 。 这 种 双 线 性 插值 方案 是 
cv: :tesize 图 数 的 缺 省 方法 (可 以 用 标志 cv: :INTER_LINEAR 显 式 地 指定 ): 























Cv::resize(reduced2, newImage, 
cv::Size(), 3, 3, cv::INTER_ LINEAR); 


得 到 的 结果 如 下 : 





Bilinear resizing 过 























此 外 还 有 一 些 算法 ,可 以 得 到 更 好 的 结果 。 使 用 双 三 次 插值 算法 ,在 执行 插值 运算 时 需要 考 
虑 4x4 的 邻 域 像素 。 不 过 ， 因 为 这 种 算法 使 用 了 更 多 的 像素 ， 并且 包含 了 三 次 函数 的 计算 ， 所 以 
它 的 运算 速度 比 双 线 性 插值 算法 慢 。 











6.2.4 ”参阅 


口 2.6.4 节 介绍 了 cv: : filter2D 函 数 。 该 函数 根据 用 户 选择 的 内 核 ， 在 图 像 上 应 用 线性 滤 
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6.3 ”中 值 滤波 器 


6.2 节 介绍 了 线性 滤波 器 的 概念 。 此 外 ， 非 线性 滤波 器 在 图 像 处 理 中 也 起 着 很 重要 的 作用 。 
本 节 介 绍 的 中 值 滤波 器 就 是 其 中 的 一 种 。 

因为 中 值 滤波 融 非 常 有 助 于 消除 椒盐 噪声 中 ( 这 里 我 们 用 只 有 盐 的 噪声 )， 所 以 我 们 将 使 用 
2.1 节 中 创建 的 图 像 ， 如 下 : 























6.3.1 ”如 何 实现 
调用 中 值 滤波 器 函数 的 方法 ， 与 其 他 滤波 器 差不多 : 


cv::medianBlur (image,result,5); // 滤波 器 尺寸 


结果 如 下 : 





国 ' Median filtered Image 一 
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6.3.2 ”实现 原理 


因为 中 值 滤波 器 是 非 线性 的 ,所 以 不 能 用 核心 矩阵 表示 。 但 它 也 是 通过 操作 一 个 像素 的 邻 域 ， 
来 确定 输出 的 像素 值 。 正 如 它 的 名 称 所 示 ,， 中 值 滤波 器 把 当前 像素 和 它 的 领域 组 成 一 个 集合 ,， 然 
后 计算 出 这 个 集合 的 中 间 值 ， 以 此 作为 当前 像素 的 值 (集合 中 数值 经 过 排序 ,， 中间 位 置 的 数值 就 
是 中 间 值 )。 


这 正 是 中 值 滤波 顺 在 消除 椒盐 噪声 中 如 此 高 效 的 原因 。 事实 上 , 如 果 在 某 个 邻 域 中 有 一 个 异 
常 的 黑色 或 白色 像素 ， 该 像素 将 无 法 作为 中 间 值 〈( 它 是 最 大 值 或 最 小 值 )， 因 此 肯定 会 被 邻 域 的 
值 替换 掉 。 相 反 ,， 简 单 均值 滤波 器 会 在 很 大 程度 上 受到 这 种 噪声 影响 ,从 下 图 中 可 以 观察 到 这 种 
影响 ， 它 是 用 均值 滤波 器 消除 椒盐 噪声 的 结果 : 
































回 


In Mean filtered Image 




















很 明显 ,包含 噪声 的 像素 使 邻 域 的 均值 发 生 了 偏 移 。 虽 然 噪 声 被 均值 滤波 器 模糊 了 ,但 仍然 
可 以 看 见 。 


中 值 滤波 器 还 有 利于 保留 边缘 的 尖锐 度 。 但 是 它 会 洗 去 均 质 区 域 中 的 纹理 (例如 背景 中 的 树 
木 )。 因 为 中 值 滤波 器 具有 良好 的 视觉 效果 ， 因 此 照片 编辑 软件 常用 它 创建 特效 。 可 用 彩色 图 像 
来 测试 ， 看 它 如 何 生 成 类 似 卡 通 的 图 像 。 





6.4 用 定向 滤波 器 检测 边缘 


6.2 节 介绍 了 用 核心 矩阵 进行 线性 滤波 的 概念 。 这 些 滤 波 器 通过 移 除 或 减弱 高 频 成 分 ， 达 到 
模糊 图 像 的 效果 。 本 闻 我 们 执行 一 种 反 向 的 变换 ， 即 放大 图 像 中 的 高 频 成 分 。 然 后 用 本 节 介 绍 的 
高 通 滤波 器 进行 边缘 检测 。 
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6.4.1 如何 实 现 


我 们 将 要 使 用 的 滤波 器 称 为 Sobel 滤 波 器 。 因 为 它 只 对 垂直 或 水 平方 向 的 图 像 频 率 起 作用 ( 具 
体 方向 取决 于 滤波 器 选用 的 内 核 ), 所 以 它 被 认为 是 一 种 定向 滤波 器 。OpenCV 中 有 一 个 函数 可 在 
图 像 上 应 用 Sobel 算 子 。 水 平方 向 滤波 器 的 调用 方法 为 : 





cv::Sobel (image， // 输入 
sobelx, // 输出 
CV_8U, // 图 像 类 型 
ey // 内 核 规格 
3， // 正方 形 内 核 的 尺寸 


0.4，128); // 比例 和 偏 移 量 
垂直 方向 滤波 的 调用 方法 为 〈 与 水 平方 向 滤波 器 非常 类 似 ): 


cv::Sobel (image, // 输入 


sobelY， // 输出 

CV_8U, // 图 像 类 型 

OTL; // 内 核 规格 

3， // 正方 形 内 核 的 尺寸 
0.4，128); // 比例 和 偏 移 量 


函数 用 到 了 几 个 整 型 参数 ， 下 一 节 会 详细 解释 。 注 意 选 用 这 些 参数 是 为 了 生成 一 个 8 位 的 输 
出 图 像 (cv_8U )。 


水 平方 向 Sobel 算 子 得 到 的 结果 如 下 : 








划 ) Sobel X Image 














下 一 节 我 们 将 看 到 ，Sobel 算 子 的 内 核 中 有 正 数 也 有 负数 ， 因 此 Sobel 滤 波 器 的 计算 结果 通常 
是 16 位 的 有 符号 整数 图 像 (cv_16s )。 为 了 把 结果 显示 为 8 位 图 像 (上 图 )， 我 们 用 数值 0 代表 灰 
度 128。 负 数 表示 更 黑 的 像素 ， 正 数 表示 更 亮 的 像素 。 垂 直方 向 Sobel 图 像 如 下 : 
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LH Sobel Y Image 一 口 














如 果 你 熟悉 照片 编辑 软件 , 就 会 知道 这 像 是 图 像 浮雕 化 特效 , 实际 上 这 种 特效 通常 就 是 用 定 
向 滤波 需 生 成 的 。 


你 可 以 组 合 这 两 个 结果 ( 垂直 和 水 平方 向 )， 得 到 Sobel 滤 波 器 的 模 : 


// 计算 Sobel 滤 波 器 的 模 
Cv::Sobel (image, sobelx,CV_16S,1,0); 
cv::Sobel (image, sobelY,CV_16S,0,1); 
cv::Mat sobel; 

// 计算 L1 模 

sobel= abs (sobelx)+abs (sobelY); 


在 convertTo 方 法 中 使 用 可 选 的 缩放 参数 ， 可 得 到 一 个 图 像 ， 图 像 中 白色 用 0 表示 ， 更 黑 的 
灰色 阴影 用 大 于 0 的 值 表示 。 这 个 图 像 可 以 很 方便 地 显示 Sobel 算 子 的 模 。 代 码 如 下 : 


// 找到 Sobel 最 大 值 

double sobmin, sobmax; 

cv: :minMaxLoc (sobel,&sobmin,&sobmax); 
// 转换 成 8 位 图 像 

// sobelImage = -alpha*sobel + 255 
cv::Mat sobelImage; 


sobel.convertTo(sobelImage,CV_8U,-255./sobmax,255); 


得 到 的 结果 如 下 : 





Sobel Image 一 已 
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从 这 个 岁 像 可 以 看 出 把 这 些 算 子 称 作 边 缘 检 测 器 的 原因 。 接 着 可 以 对 这 个 图 像 冰 值 化 , 得 到 
图 像 轮廓 的 二 值 分 布 图 。 代 码 片段 和 生成 的 图 像 如 下 : 


cv::threshold(sobelImage, sobelThresholded, 
threshold, 255, cv::THRESH_BINARY); 








到 本 : 巴 ] 


Binary Sobel Image (low) 














6.4.2 ”实现 原理 


Sobel 算 子 是 一 种 典型 的 用 于 边缘 检测 的 线性 滤波 器 ， 它 基于 两 个 简单 的 3 x 3 内 核 ， 内 核 结 6 
构 如 下 : 























-1l 0 
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如 果 把 图 像 看 作 二 维 函 数 ， 那 么 Sobel 算 子 就 是 图 像 在 垂直 和 水 平方 向 变化 的 速度 。 在 数学 
术语 中 , 这 种 速度 称 为 梯度 。 它 是 一 个 二 维 向 量 , 向 量 的 元 素 是 横竖 两 个 方向 的 函数 的 一 阶 导 数 : 



































or or| 
ar Oy 


erad(l) = | 





Sobel 算 子 在 水 平和 垂直 方向 计算 像素 值 的 差分 ， 得 到 图 像 梯度 的 近似 值 。 它 在 像素 周围 的 
一 定 范 围 内 进行 运算 ， 以 减少 噪声 带 来 的 影响 。cv: :Sobe1 函 数 使 用 Sobel 内 核 来 计算 图 像 的 卷 
只 。 子 数 的 完整 说 明 如 下 : 
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cv::Sobel (image， // 输入 
sobel， // 输出 
image_depth, // 图 像 类 型 
Xorder,yorder，// 内 核 规格 
kernel_size, // 正方 形 内 核 的 尺寸 
alpha，beta); // 比例 和 偏 移 量 
输出 图 像 的 像素 类 型 是 可 以 选择 的 ， 包 括 无 符号 字符 型 、 有 符号 整数 或 浮 点 数 。 如 果 结 果 
超出 了 像素 值 域 的 范围 ， 就 会 进行 饱和 度 运 算 。 函 数 的 最 后 两 个 参数 可 用 来 处 理 这 种 情况 。 在 
生成 最 终 图 像 之 前 ， 可 以 将 结果 缩放 ( 相 乘 ) alpha 倍 ， 并 加 上 偏 移 量 peta。 前 面 我 们 生成 的 
图 像 中 ，Sobel 值 0 代表 灰 度 值 128 (中 等 灰 度 )， 就 是 用 了 这 种 方法 。 每 个 Sobel 掩 码 就 是 一 个 方 
向 上 的 导数 。 因 此 要 用 两 个 参数 来 指明 将 要 应 用 的 内 核 ， 即 x 方向 和 y 方 向 导数 的 阶 数 。 例 如 ， 
如 果 xorder 和 yorder 分 别 为 I 和 0， 则 得 到 水 平方 向 Sobel 内 核 ;如 果 分 别 是 Oo 和 1， 则 得 到 垂直 
方向 的 内 核 。 也 可 以 使 用 其 他 组 合 , 但 这 两 种 组 合 是 最 常用 的 (下 节 讨 论 二 阶 导数 的 情况 )。 最 
后 ， 内 核 的 尺寸 也 可 以 大 于 3 x 3。 可 选 的 尺寸 有 1、3、5 和 7。 内 核 尺 寸 为 1， 表 示 一 维 Sobel 滤 
波 器 (1 x 3 或 3 x 1 )。 大 尺寸 内 核 的 作用 ， 参 见 6.4.3 节 。 


梯度 是 一 个 二 维 向 量 ,因此 它 具 有 模 和 方向 。 梯度 向 量 的 模 表示 变化 的 振幅 ,计算 时 通常 被 
当 作 欧 几 里 德 模 ( 也 称 L2 模 ): 
ary (ery 
| grad(DE 图 + 


但 是 在 图 像 处 理 领 域 , 通常 把 绝对 值 之 和 作为 模 进 行 计算 。 这 称 为 L1 模 ， 它 得 到 的 结果 与 
L2 模 比较 接近 ,但 计算 速度 快 。 本 节 我 们 采用 L1 模 : 


// 计算 L1 模 
sobel= abs (sobelx)+abs (sobelY); 


梯度 向 量 总 是 指向 变化 最 剧烈 的 方向 。 对 于 一 个 图 像 来 说 , 这 意味 着 梯度 的 方向 与 边缘 垂直 ， 
从 较 黑 区 域 指向 较 亮 区 域 。 梯 度 的 角度 用 下 面 的 公式 计算 : 


/grad(7) = arcton -2 /名 
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在 检测 边缘 时 ， 通 常 只 计算 模 。 但 是 如 果 需 要 同时 计算 模 和 方向 ， 可 以 使 用 下 面 的 OpenCV 
函数 : 


// 计算 Sobe1 算 子 ， 必 须 用 浮 点 数 类 型 
Cv::Sobel (image, sobelx,CV_32F,1,0); 
CVv::Sobel (image, sobelY,CV_32F,0,1); 

// 计算 梯度 的 L2 模 和 方向 

cv::Mat norm, dir; 
Cv::cartToPolar (sobelx, sobelY,norm,dir); 
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默认 情况 下 ， 得 到 的 方向 用 弧度 表示 。 如 果 要 使 用 角度 ， 只 需要 增加 一 个 参数 并 设 为 Lrue。 

对 梯度 幅 值 进行 阐 值 化 , 可 得 到 一 个 二 值 边缘 分 布 图 。 选 择 合适 的 阔 值 并 不 容易 。 如 果 阔 值 大 
低 ， 就 会 保留 太 多 ( 厚 ) 的 边缘 ;而 如 果 选 用 更 严格 (高 ) 的 冰 值 ， 就 会 留 下 断裂 的 边缘 。 为 了 说 
明 这 种 需要 作出 取舍 的 情况 ， 下 面 用 更 高 的 阔 值 得 到 二 值 边缘 分 布 图 并 把 它 与 前 面 的 图 做 对 比 : 
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Binary Sobel Image (high) 

















要 同时 得 到 较 低 阔 值 和 较 高 冰 值 的 优点 ， 有 一 个 办 法 就 是 使 用 滞后 冰 值 化 的 概念 。 下 一 章 在 
介绍 Canny 算 子 时 将 对 此 进行 解释 。 





6.4.3 扩展 阅读 


还 有 一 些 其 他 的 梯度 算 子 , 这 里 我 们 介绍 其 中 的 几 个。 还 可 以 在 应 用 导数 滤波 器 之 前 应 用 高 
斯 平滑 滤波 器 ， 这 会 减少 对 噪声 的 敏感 度 ， 后 面 会 详细 解释 。 


1. 梯度 算 子 
Prewitt 算 子 定义 了 下 面 的 内 核 ， 用 来 计算 某 个 像素 位 置 的 梯度 : 
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Roberts 算 子 基于 这 些 简单 的 2x2 内 核 : 
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如 果 要 更 精确 地 计算 梯度 方向 ， 可 采 月 














注意 ， 你 可 以 在 cv: :Sobel 函 数 中 使 用 Scharr 内 核 ， 参 数 为 CV_SCHARR: 
cvV::Sobel(image,sobe1X,CV_16S,1,0，CV_SCHARR) ; 


也 可 以 调用 cv: :Scharr 图 数 ， 效 果 是 一 样 的 : 

















Cv::Scharr (image, scharrXx,CV_16S,1,0,3); 


所 有 这 些 定向 滤波 器 都 会 计算 图 像 函 数 的 一 阶 导 数 。 因 此 , 在 滤波 器 方向 上 像素 强度 变化 大 
的 区 域 , 得 到 较 大 的 值 ; 较 平 坦 的 区 域 得 到 较 小 的 值 。 正 因为 如 此 , 计算 图 像 导数 的 滤波 器 被 称 
为 高 通 滤波 器 。 


2. 高 斯 导数 


导数 滤波 器 属于 高 通 滤波 器 。 因 此 它们 往往 会 放大 图 像 中 的 噪声 和 细小 的 高 对 比 度 细 节 。 为 
了 减少 这 些 高 频 成 分 的 影响 ,最 好 在 应 用 导数 滤波 器 之 前 对 图 像 做 平 请 化 处 理 。 也 许 你 觉得 这 需 
要 两 个 步骤， 即 平滑 化 图 像 和 计算 导数 。 但 仔细 观察 这 些 运 算 后 就 能 发 现 ， 只 要 选用 合适 的 平滑 
内 核 , 这 两 个 步骤 是 可 以 合并 的 。 前 面 我 们 学 过 ,图 像 与 滤波 器 的 卷 积 可 以 表示 为 一 些 项 的 累加 
和 。 有 趣 的 是 ， 有 一 个 著名 的 数学 定理 : 项 的 累加 和 的 导数 ， 等 于 项 的 导数 的 累加 和 。 


因此 ， 可 以 先 对 内 核 求 导 数 ， 然 后 与 图 像 卷 积 ， 而 不 是 对 平滑 化 的 结果 求 导 数 。 因 为 高 斯 内 
核 是 连续 可 导 的 , 所 以 这 种 做 法 特别 合适 。 用 不 同 尺 寸 的 内 核 调用 cv: : Sobel 函 数 时 , 就 采用 了 
这 种 方法 。 这 个 函数 用 不 同 的 o 值 计算 高 斯 可 导 内 核 。 例 如 ， 如 果 在 x 方向 选用 7 x 7 的 Sobel 滤 波 
需 ( 即 kernel_size=7 )， 将 会 得 到 以 下 结果 : 
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匣 ; SobelXImage(71x7) 一 口 














将 它 与 前 面 的 图 像 比较 , 可 以 发 现 很 多 精致 的 细节 已 经 被 移 除 , 明显 的 边缘 位 置 得 到 了 进 一 
步 强 化 。 注 意 ， 这 时 它 已 经 成 为 一 个 带 通 滤波 右 ， 较 高 的 频率 被 高 斯 滤波 右 移 除 ， 同 时 较 低 的 频 
率 被 Sobel 滤 波 器 移 除 。 

















6.4.4 ”参阅 
口 7.2 节 将 介绍 如 何 用 两 个 不 同 的 阔 值 获得 二 值 边缘 分 布 图 。 








6.5 计算 拉 普 拉 斯 算 子 


拉 普 拉 斯 算 子 也 是 一 种 基于 图 像 导数 运 算 的 高 通 线性 滤波 器 。 它 通过 计算 二 阶 导 数 来 度量 图 
像 函 数 的 曲率 。 








6.5.1 如何 实现 


在 OpenCV 中 , 可 用 cv: :Laplacian 阴 数 计算 图 像 的 拉 普 拉 斯 算 子 。 它 与 cv: :Sopel 函 数 非 
常 类 似 。 实 际 上 ， 为 了 获得 核心 矩 了 泗 ， 它 们 使 用 了 同一 个 基本 函数 cv: :getDerivKernels。 根 
据 定 义 , 它 采用 二 阶 导 数 , 因 此 和 cv: :Sobel 函 数 唯一 的 区 别 是 它 没有 用 来 表示 导数 的 阶 的 参数 。 


我 们 为 这 个 算 子 创建 一 个 简单 的 类 ,封装 几 个 与 拉 普 拉 斯 算 子 有 关 的 运算 ,基本 的 方法 如 下 : 


class LaplacianzC { 























private: 
// 拉 普 拉 斯 算 子 
cv::Mat laplace; 
// 拉 普 拉 斯 内 核 的 孔径 大 小 


int aperture; 
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DUublic: 
LaplacianZzC() : aperture(3) {} 


// 设置 内 核 的 孔径 大 小 
void setAperture(int a) { 
aperture= a; 


} 


// 计算 浮 点 数 类 型 的 拉 普 拉 斯 算 子 


cv::Mat computeLaplacian(const cv::Mat& image) { 


// 计算 拉 普 拉 斯 算 子 
cv::Laplacian(image,1laplace,CV_32F,aperture); 
return laplace; 


} 


拉 普 拉 斯 算 子 的 计算 在 浮 点 数 类 型 的 图 像 上 进行 。 与 上 方 一 样 , 要 对 结果 做 缩放 处 理 才 能 
其 正常 显示 。 缩放 基于 拉 普 拉 斯 算 子 的 最 大 绝对 值 ， 其 中 数值 0 对 应 灰 度 级 128。 类 中 有 一 个 方法 
可 获得 下 面 的 图 像 表 示 : 


// 获得 拉 普 拉 斯 结果 ， 存 在 8 位 图 像 中 
// 0 表示 友 度 级 128 
// 如 果 不 指 定 缩放 比例 ， 那 么 最 大 值 会 放大 到 255 
// 在 调用 这 个 函数 之 前 ， 必 须 先 调用 computeLaplacian 
cv::Mat getLaplacianImage (double scale=-1.0) { 
if (scale<0) { 
double lapmin, lapmax; 
// 取得 最 小 和 最 大 拉 普 拉 斯 值 
cv: :minMaxLoc (laplace,&lapmin,&lapmax); 
// 缩放 拉 普 拉 斯 算 子 到 127 
scale= 127/ std::max(-lapmin,lapmax); 


} 



































// 生成 灰 度 图 像 

cv::Mat laplaceImage; 
laplace.convertTo(laplaceImage,CV_8U,scale,128); 
return laplaceImage; 


} 
使 用 这 个 类 ， 从 7 x 7 内 核 计 算 拉 普 拉 斯 图 像 的 方法 为 : 


// 用 LaplacianZC 类 计算 拉 普 拉 斯 算 子 

LaplacianZzC laplacian; 

laplacian.setAperture(7); // 7x7 的 拉 普 拉 斯 算 子 
cv::Mat flap= laplacian.computeLaplacian (image); 
laplace= laplacian.getLaplacianImage(); 


得 到 的 图 像 如 下 : 
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6.5.2 ”实现 原理 
二 维 函 数 的 拉 普 拉 斯 算 子 的 正式 定义 为 : 对 它 的 二 阶 导 数 求 和 : 





上 


/aplace(7) = 
Diace(7) a 


oT 
一 2 
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如 采用 最 简单 的 形式 ， 它 可 以 近似 为 这 个 3 x 3 内 核 : 


0 下 20 
1 -4 
0 1 0 




















相对 Sobel 算 子 而 言 ， 拉 普 拉 斯 算 子 在 计算 时 可 以 使 用 更 大 的 内 核 ， 并且 对 图 像 噪声 更 加 敏 
感 ， 因 此 最 好 采用 拉 普 拉 斯 算 子 (除非 要 重点 考虑 计算 效率 )。 因 为 这 些 更 大 的 内 核 是 用 高 斯 函 
数 的 二 阶 导数 计算 的 ， 因 此 这 个 算 子 也 常 称 为 高 斯 - 拉 普 拉 斯 算 子 (LoG )。 注意 ， 拉 普 拉 斯 算 子 
内 核 的 值 累加 和 总 是 等 于 0。 这 保证 在 强度 值 恒定 的 区 域 中 , 拉 普 拉 斯 算 子 将 变 为 0。 因 为 拉 普 拉 
斯 算 子 度量 的 是 图 像 函数 的 曲率 ， 所 以 在 平坦 区 域 中 它 应 该 等 于 0。 


初 看 起 来 ,好 像 很 难 解释 拉 普 拉 斯 算 子 的 作用 。 从 内 核 的 定义 可 以 明显 地 看 出 , 任何 孤立 的 
像素 值 ( 即 与 周围 像素 差别 很 大 的 值 ) 都 会 被 拉 普 拉 斯 算 子 放大 。 这 是 因为 该 算 子 对 噪声 非常 敏 
感 。 但 更 值得 关注 的 是 图 像 边 缘 附 近 的 拉 普 拉 斯 值 。 图 像 边缘 的 出 现 是 灰 度 值 在 区 域 之 间 快 速 地 
过 渡 的 结果 。 观 察 图 像 函 数 在 边缘 ( 例如 从 暗 到 亮 的 边缘 ) 上 的 变化 ， 可 以 发 现 一 个 规律 : 如 果 
灰 度 级 上 升 ， 那么 肯定 存在 从 正 曲率 ( 强度 值 开 始 上 升 ) 到 负 曲 率 ( 强度 值 即将 到 达 高 地 ) 的 平 
组 过渡。 因此 ， 如 果 拉 普 拉 斯 值 从 正 数 过 渡 到 人 负数， 就 说 明 这 个 位 置 很 可 能 是 边缘 。 或 者 说 , 边 
缘 位 于 拉 普 拉 斯 函数 的 过 零点 。 为 了 说 明 这 个 观点 , 我 们 来 看 测试 图 像 的 一 个 小 窗口 中 的 拉 普 拉 
斯 值 。 我 们 选取 城堡 塔楼 屋顶 的 底部 边缘 位 置 。 具 体位 置 见 下 图 中 的 白色 小 框 : 
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现在 来 观察 这 个 窗口 内 的 拉 普 拉 斯 值 (7 x 7 内 核 )， 如 下 图 : 
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如 果 仔 细 追 踪 拉 普 拉 斯 图 像 的 过 零点 〈 位 于 不 同 符号 的 像素 之 间 )， 就 可 以 得 到 一 条 曲线 ， 

应 图 像 窗 口中 可 以 看 到 的 边缘 。 在 上 面 的 图 片 中 ， 我 们 党 着 过 零点 画 了 一 条 虚线 ， 它 对 应 着 塔 
i 在 选中 的 图 像 窗 口中 可 以 看 到 这 个 边缘 。 这 意味 着 , 理论 上 讲 其 至 可 以 检测 到 子 像素 
级 精度 的 图 像 边缘 。 


在 拉 普 拉 斯 图 像 上 追踪 过 零点 曲线 , 需要 很 大 的 耐心 。 但 是 可 以 用 一 个 简化 的 算法 , 来 检测 
过 零点 的 大 致 位 置 。 这 种 算法 首先 对 拉 普 拉 斯 图 像 冰 值 化 ， 采 用 的 阔 值 为 0， 得 到 正 数 和 负数 之 
间 的 分 割 区 域 。 这 两 个 区 域 之 间 的 轮廓 就 是 过 零点 。 所 以 我 们 可 用 形态 学 运算 来 提取 这 些 轮廓 ， 
也 就 是 拉 普 拉 斯 图 像 减 去 膨胀 后 的 图 像 ( 这 是 5.4 节 中 介绍 的 Beucher 梯 度 ) 下 面 的 方法 实现 了 这 
个 算法 ， 生 成 一 个 过 零点 的 二 值 图 像 : 

// 获得 过 零点 的 二 值 图 像 


// 拉 普 拉 斯 图 像 的 类 型 必须 是 CV_32F 
cv::Mat getZeroCrossings (cv::Mat laplace) { 




































































// 阅 值 为 0 
// 负数 用 黑色 
// 正 数 用 和 白色 


cv::Mat signImage; 
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cv::threshold(laplace,signImage,0,255,cv::THRESH_BINARY); 


// 把 +/- 图 像 转换 成 CV_8U 
cv::Mat binary; 
signImage.convertTo (binary,CV_8U); 





// 膨胀 +/- 区 域 的 二 值 图 像 
cv::Mat dilated; 
cv::dilate (binary,dilated,cv::Mat()); 





// 返回 过 零点 的 轮 廊 
return dilated-binary; 


} 
得 到 的 结果 是 这 个 二 值 分 布 图 : 





























可 以 看 出 ， 拉 普 拉 斯 的 过 零点 方法 检测 了 所 有 的 边缘 ， 而 不 区 分 强 边缘 和 弱 边 缘 。 我 们 还 知 
道 拉 普 拉 斯 算 子 对 噪声 非常 敏感 。 最 后 ， 有 些 边缘 是 由 于 压缩 失真 产生 的 。 正 是 由 于 这 些 原因 ， 
拉 普 拉 斯 算 子 才 检测 出 了 那么 多 的 边缘 。 事 实 上 , 在 检测 边缘 时 只 会 把 拉 普 拉 斯 算 子 与 其 他 算 
子 结合 起 来 使 用 ( 例如 梯度 很 大 的 过 零点 才能 确认 的 边缘 ) 在 第 8 章 我 们 会 看 到 , 在 不 同比 例 下 
检测 兴趣 点 时 ， 拉 普 拉 斯 算 子 和 其 他 二 阶 算 子 是 非常 有 用 的 。 















































6.5.3 扩展 阅读 


拉 普 拉 斯 算 子 是 一 种 高 通 滤波 器 。 可 以 组 合 使 用 多 个 低 通 滤波 器 ,近似 地 模拟 出 它 。 但 首先 
我 们 要 用 到 网 像 增强 的 概念 ， 第 2 章 兽 讨论 过 这 个 概念 。 


1. 用 拉 普 拉 斯 算 子 增强 图 像 的 对 比 度 


可 以 从 图 像 中 减 去 它 的 拉 普 拉 斯 图 像 ， 以 增强 图 像 的 对 比 度 。 这 就 是 我 们 在 第 2 章 中 用 邻 域 
访问 扫描 图 像 时 用 的 方法 。 当 时 我 们 用 到 了 这 个 内 核 :; 
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它 等 于 1 减 去 拉 普 拉 斯 内 核 (也 就 是 原始 图 像 减 去 它 的 拉 普 拉 斯 图 像 )。 


2. 高 斯 差分 











6.2 节 中 的 高 斯 滤波 右 可 提取 图 像 的 低 # 





于 参数 c 的 值 ， 这 个 参数 控制 了 滤波 器 的 宽 

















项 成 分 。 我 们 知道 高 斯 滤波 器 过滤 的 频率 范围 ， 取 决 
度 。 现 在 我 们 用 两 个 不 同 带 宽 的 高 斯 滤波 器 对 一 个 图 




















像 做 滤波 ,然后 用 这 两 个 结果 相 减 ， 就 得 到 的 由 较 高 的 频率 构成 的 图 像 。 这 些 频 率 被 一 个 滤波 器 
保留 , 被 另 一 个 滤波 器 丢弃 。 这 种 运算 称 为 高 斯 差分 (Difference of Gaussians，DoG ), 代码 如 下 : 


Cv::GaussianBlur (image,gauss20,cv::Size(),2.0);，; 
Cv::GaussianBlur (image,gauss22,cv::Size(),2.2); 

// 计算 高 斯 差分 

cv::subtract (gauss22, gauss20, dog, cv::Mat(), CV_32F); 
// 计算 DoG 的 过 零点 

Zeros= laplacian.getZeroCrossings (dog); 

另外 ,我 们 也 计算 DoG 算 子 的 过 零点 ， 得 到 如 下 图 像 : 











Zero-crossings of DoG 
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可 以 证 明 ,， 选 择 合 适 的 c 值 后 ，DoG 算 子 可 以 很 好 地 模拟 LoG 滤 波 器 。 另 外 ， 如 果 从 一 个 c 值 
的 增长 队列 中 选取 连续 的 数据 对 , 用 以 计算 一 系列 的 高 斯 差分 , 就 可 以 得 到 该 图 像 的 尺度 空间 表 
示 法 。 这 种 多 尺度 表示 法 非常 有 用 ， 例 如 用 于 检测 尺度 无 关 的 图 像 特征 ， 第 8 章 将 详细 解释 。 
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口 8.4 节 使 用 拉 普 拉 斯 算 子 和 DoG 来 检测 尺度 无 关 的 特征 。 


提取 直线 、 轮 廓 和 区 域 








本 章 包 括 以 下 内 容 : 


口 用 Canny 算 子 检测 图 像 轮廓 ; 
口 用 霍 夫 变换 检测 直线 ; 

口 点 集 的 直线 拟 合 ; 

口 提取 区 域 的 轮廓 ; 

口 计算 区 域 的 形状 描述 子 。 














7.1 简介 


要 进行 基于 内 容 的 图 像 分 析 ， 我 们 必须 从 构成 图 像 的 像素 集中 提取 出 有 意义 的 特征 。 轮 廓 、 
直线 、 斑 点 等 就 是 基本 的 图 像 图 元 ,用 来 描述 图 像 包 含 的 元 素 。 本 章 将 介绍 如 何 提取 这 些 重要 的 
图 像 特征 。 

















7.2 用 Canny 算 子 检测 图 像 轮 廓 


上 一 章 我 们 学 习 了 如 何 检测 岁 像 的 边缘 。 尤 其 是 通过 对 梯度 幅 值 的 冰 值 化 , 获得 图 像 中 主要 
边缘 的 二 值 分 布 图 。 边 缘 勾 画 出 了 图 像 的 元 素 ， 含 有 重要 的 视觉 信息 。 基 于 这 个 原因 ,边缘 可 应 
用 于 目标 识别 等 领域 。 但 是 简单 的 二 值 边缘 分 布 图 有 两 个 主要 缺点 。 首 先 ， 检 测 到 的 边缘 过 厚 ， 
这 导致 更 加 难以 识别 物体 的 边界 。 第 二 ,也 是 更 重要 的 ,通常 不 可 能 找到 这 样 的 阔 值 : 低 到 足以 
检测 到 图 像 中 所 有 重要 的 边缘 ,同时 又 高 到 足以 避免 产生 太 多 无 关 紧要 的 边缘 。 这 是 一 个 难以 权 
衡 的 问题 ，Canny 算 法 试图 解决 这 个 问题 。 









































7.2.1 如 何 实现 


Canny 算 法 可 通过 OpenCV 的 cv: :canny 男 数 中 实现 。 使 用 这 个 算法 时 需要 指定 两 个 阅 值 ( 后 
面 会 解释 原因 )。 调 用 浮 数 的 方法 如 下 : 
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// 应 用 Canny 算 法 
Cv::Mat contours; 





cv: :Canny (image, // 灰 度 图 像 
contours，// 输出 轮廓 
125, // 低 阅 值 
350); // 高 阅 值 
先 来 看 这 个 图 像 : 























在 这 个 图 像 上 应 用 Canny 算 法 ， 得 到 结果 如 下 : 





Canny Contours 一 口 
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注意 , 由 于 正常 的 结果 是 用 非 零 像素 表示 轮廓 的 ,因此 为 了 得 到 上 面 显示 的 图 像 ， 需 要 反 转 
黑色 和 白色 像素 值 。 而 上 面 显示 的 图 像 只 是 像素 值 为 255 的 轮廓 。 





7.2.2 ”实现 原理 


Canny 算 子 通 常 基于 第 6 章 介 绍 的 Sobel 算 子 ， 虽然 也 可 使 用 其 他 梯度 算 子 。 它 的 核心 理念 是 
用 两 个 不 同 的 阔 值 来 判断 哪个 点 属于 轮廓 : 一 个 低 姜 值 ， 一 个 高 阔 值 。 


选择 低 闵 值 时 , 要 保证 它 能 包含 属于 重要 图 像 轮 廊 的 全 部 边缘 像素 。 例 如, 使 用 前 面 例子 中 
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指定 的 低 闪 值 ， 应 用 到 Sobel 算 子 返 回 的 图 像 上 ， 可 得 到 如 下 边缘 分 布 图 : 





Sobel (low threshold) 一 口 











Il < 六 
可 以 看 到 , 道路 的 边缘 非常 清晰 。 但 因为 这 里 使 用 了 一 个 宽松 的 阔 值 ， 所 以 很 多 并 不 需要 的 











边缘 也 被 检测 出 来 了 。 而 第 二 个 靖 值 的 作用 就 是 界定 重要 轮廓 的 边缘 ， 它 会 排除 掉 异 常 的 边缘 。 





例如 ， 在 Sobel 边 缘分 布 图 上 应 用 上 例 中 的 高 阔 值 后 ， 得 到 结果 如 下 : 





Sobel (high threshold) 一 品 
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现在 我 们 得 到 的 图 像 中 有 些 边 缘 是 断裂 的 , 但 是 这 些 可 见 的 边缘 








肯定 属于 本 场景 中 重要 的 轮 


廓 。Canny 算 法 结合 这 两 种 边缘 分 布 图 ， 生 成 最 优 的 轮廓 分 布 图 。 具 体 做 法 是 在 低 闪 值 边缘 分 布 
图 上 只 保留 具有 连续 路 径 的 边缘 点 ， 同 时 把 那些 边缘 点 连接 到 属于 高 冰 值 边缘 分 布 图 的 边缘 上 。 





这 样 一 来 , 高 闷 值 分 布 图 上 的 所 有 边缘 点 都 保留 下 来 ,而 低 阐 值 分 布 





图 上 边缘 点 的 孤立 链 全 部 被 





移 除 。 这 是 一 种 很 好 的 折 中 方案 ,只 要 指定 适当 的 阐 值 ， 就 能 获得 高 


质量 的 轮廓 。 这 种 基于 两 个 








浆 值 获得 二 值 分 布 图 的 策略 , 称 为 滞后 闪 值 化 ,可 用 于 任何 需要 用 效 值 化 获得 二 值 分 布 图 的 场景 。 

















但 是 它 的 计算 复杂 度 比 较 高 。 


另外 ，Canny 算 法 用 了 一 个 额外 的 策略 来 优化 边缘 分 布 图 的 质量 




















。 在 进行 滞后 阁 值 化 之 前 ， 


如 果 梯 度 幅 值 不 是 梯度 方向 上 的 最 大 值 , 那么 对 应 的 边缘 点 都 会 被 移 除 。 前 面 讲 过 ,梯度 的 方向 























总 是 与 边缘 垂直 的 。 因 此 这 个 方向 上 梯度 的 局 部 最 大 值 ， 对 应 着 轮廓 最 大 强度 的 位 置 。 这 就 是 为 
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什么 Canny 轮 廓 分 布 图 中 边缘 比较 薄 的 原因 。 





7.2.3 ”参阅 


口 JCanny 的 经 典 论文 “A computational approach to edge detection”, 发 表 于 JEEE Transactions 
on Pattern Analysis and Image Understanding( 1986 年 第 6 期 第 18 卷 )。 


7.3 ”用 霍 夫 变 换 检测 直线 


人 造 世界 中 充满 了 平面 和 线性 结构 。 因 此 直线 在 图 像 中 是 很 常见 的 。 它 们 是 很 有 意义 的 特征 ， 
在 目标 识别 和 图 像 理 解 领域 有 着 非常 重要 的 作用 。 霍 夫 变 换 (Hough ) 是 一 种 常用 于 检测 此 类 具 
体 特征 的 经 典 算法 。 该 算法 起 初 用 于 检测 图 像 中 的 直线 , 后 来 经 过 扩展 ,也 能 检测 其 他 简单 的 图 
像 结构 。 









































7.3.1 准备 工作 
在 霍 夫 变换 中 ， 用 这 个 方程 式 表示 直线 : 





DO=XYcosO+J)SnO 


参数 p 是 直线 与 图 像 原 点 (左上 角 ) 的 距离 ，b 是 直线 与 垂直 线 的 角度 。 在 这 种 表示 法 中 ， 
像 中 的 直线 有 一 个 0 到 x ( 弧度 ) 之 间 的 角 9， 而 半径 p 的 最 大 值 是 图 像 对 角 线 的 长 度 。 例 如 ， 下 面 
的 一 组 线 : 






































像 直线 1 这 样 的 重 直 线 ， 其 角度 值 6 等 于 0， 而 水 平 线 (例如 直线 5 ) 的 9 等 于 x/2。 因 此 直线 3 
的 0 等 于 rw/4， 直 线 4 大 约 是 0.7r。 为 了 表示 [0, 了 范围 内 的 所 有 6 值 ， 半 径 值 可 以 用 负数 表示 。 例 如 
直线 2， 它 的 0 等 于 0.8r，p 是 负数 。 



































7.3.2 ”如 何 实现 
针对 用 于 检测 直线 的 霍 夫 变换 ，OpenCV 提 供 了 两 种 实现 方法 。 其 中 基础 版 是 cv: :Hough- 
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Lines。 它 输入 的 是 一 个 二 值 分 布 

















点 构成 直线 。 通 常 它 是 一 个 已 经 




















图 ， 包 含 了 一 批 像素 点 ( 用 非 零 像素 表示 )， 其 中 一 些 对 齐 的 
生成 的 边缘 分 布 图 ， 例 如 采用 Canny 算 子 生成 的 分 布 图 。 








cv: :HoughLines 函 数 输出 的 是 一 个 cv: :Vec2f 类 型 元 素 组 成 的 向 量 ， 每 个 元 素 是 一 对 浮 点 数 ， 
表示 检测 到 的 直线 的 参数 ， 即 (p, 9)。 下 面 是 使 用 这 个 函数 的 例子 ， 首 先 用 Canny 算 子 获 得 图 像 轮 





廓 ， 然 后 用 霍 夫 变换 检测 直线 : 


// 应 用 Canny 算 法 
wy Mat Contouray 








Cv::Canny (image,contours,125,350); 


// 用 霍 夫 变换 检测 直线 


std: :vector<cv: :Vec2f> lines; 


cv: :HoughLines (test,lines, 
1,PI/180， // 步 长 


60); // 最 小 投票 数 





第 3 个 和 第 4 个 参数 表示 搜索 直线 时 用 的 步 长 。 在 本 例 中 ， 半 径 步 长 为 1， 表 示 函 数 将 搜索 所 
有 可 能 的 半径 ; 角度 步 长 为 r/180， 


表示 函数 将 搜索 所 有 可 能 的 角度 。 最 后 一 个 参数 的 功能 将 在 


下 一 段 介 绍 。 选 用 特定 的 参数 后 ,可 以 从 上 一 节 的 道路 图 像 中 检测 到 15 条 直线 。 为 了 让 检测 结 








可 视 化 , 我 们 在 原始 图 像 上 绘制 这 些 直 线 。 但 是 有 一 点 需要 强调 , 这 个 算法 检测 的 是 图 像 中 的 直 





























线 而 不 是 线段 ， 它 不 会 给 出 直线 的 端点 。 因 此 我 们 绘制 的 直线 将 穿 透 整个 图 像 。 具 体 做 法 是 ,对 


于 垂直 方向 的 直线 ,我 们 计算 它 与 

















图 像 水 平 边界 ( 即 第 一 行 和 最 后 一 行 ) 的 交 义 点 ,然后 在 这 两 











个 交叉 点 之 间 画 线 。 对 于 水 平方 向 的 直线 也 类 似 ， 只 不 过 用 第 一 列 和 最 后 一 列 。 画 线 的 函数 是 
cv: :line。 需 要 注意 的 是 ， 即 使 点 的 坐标 超出 了 图 像 范 围 ， 这 个 函数 也 能 正确 运行 ， 因 此 没 必 
要 检查 交叉 点 是 否 在 图 像 内 部 。 通 过 遍历 直线 向 量 画 出 所 有 直线 ， 代 码 如 下 : 


std: :Vector<cV::Vec2f>::const_iterator it= lines.begin(); 























while (it!=lines.end()) { 


float rho= (*it)[0]; // 

















第 一 个 元 素 是 距离 fho 


float theta= (*it)[1]; // 第 二 个 元 素 是 角度 theta 


if (theta < PI/4. 
|| thneta > 3.*PI/4. 


// 直线 与 第 一 行 的 交叉 点 


) { // 重 直 线 (大 致 ) 


Cv::Point ptl(rho/cos (theta),o0o); 
// 直线 与 最 后 一 行 的 交 又 点 
Cv::Point pt2((rho-result.rows*sin(theta))/ 


// 画 白色 的 线 


cv::line( image, pt1, 
} else { // 水 平 线 (大 致 ) 


// 直线 与 第 一 列 的 交 又 点 


cos (theta),result.rows); 


Bt2,. Gv: aScaLlar (255) TT) 


cv::Point pt1(0,rho/sin(theta)); 
// 直线 与 最 后 一 列 的 交 又 点 


Cv::Point pt2 (result. 


cols, 
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(rho-result.cols*cos (theta))/sin(theta)); 
// 画 白 色 的 线 
cv::line(image, ptl1, pt2, cv::Scalar(255), 1); 
} 


++it; 


} 
得 到 的 结果 如 下 : 





是 - Lines with Hough 二 口 
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可 以 看 出 , 霍 夫 变换 只 是 寻找 图 像 中 边缘 像素 的 对 齐 区 域 。 因 为 有 些 像素 只 是 碰巧 排 成 了 直 
线 ， 这 种 方式 可 能 产生 错误 的 检测 结果 。 也 可 能 因为 多 条 直线 穿 过 了 同一 个 像素 对 齐 区域 ， 而 检 
测 出 重复 的 结果 。 


为 解决 上 述 问 题 并 检测 到 线段 ( 即 包含 端点 的 直线 )， 人 们 提出 了 霍 夫 变换 的 改进 版 。 这 就 
是 概率 霍 夫 变换 , 在 OpenCV 中 通过 cv: :HoughLinesP 函 数 实现 ,我 们 用 它 创 建 LineFingder 类 ， 
封装 函数 的 参数 : 


class LineFinder { 














private: 


// 原始 图 像 


cv::Mat img; 





// 包含 被 检测 直线 的 说 点 的 向 量 


std: :vector<cv::Vec4i> lines; 


// 累加 器 分 辨 率 参 数 
double deltaRho; 
double deltaTheta; 


// 确认 直线 之 前 必须 收 到 的 最 小 投票 数 
int minVote; 


// 直线 的 最 小 长 度 
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double minLength; 


// 直线 上 允许 的 最 大 空隙 


double maxGap; 
public: 


// 默认 累加 器 分 辨 率 是 1 像素 ，]1 度 

// 没有 空隙 ， 没 有 最 小 长 度 

LineFinder() : qdqeltaRho(1)，qeltaTheta(PI/180) ， 
minVote(10), minLength(0.), maxGap(0.) {} 


看 一 下 对 应 的 设置 方法 : 


// 设置 累加 器 的 分 辨 率 
void setAccResolution(double dRho, double dTheta) { 


deltaRho= dRho; 
deltaTheta= dTheta; 
} 


// 设置 最 小 投票 数 
void setMinVote(int minv) { 


minVote= minyv; 


} 


// 设置 直线 长 度 和 空隙 
void setLineLengthAndGap (double length, double gap) { 


minLength= length; 


maxGap= gap; 


} 
用 上 述 方法 ,检测 霍 夫 线 段 的 代码 如 下 : 
// 应 用 概率 堆 夫 变换 


std: :vector<cv::Vec4i> findLines(cv::Mat& binary) { 





lines.clear (); 

cv::HoughLinesP (binary,lines, 
deltaRho, deltaTheta, minVote, 
minLength, maxGap); 


return lines; 


} 


这 个 方法 返回 cv: :Vec4i 类 型 的 向 量 , 包含 每 条 被 检测 线段 的 开始 和 结束 端点 的 坐标 。 我们 
可 以 用 下 面 的 方法 在 图 像 上 绘制 检测 到 的 线段 : 
// 在 图 像 上 绘制 检测 到 的 直线 


void drawDetectedLines(cv::Mat &image， 
Vi talar GOLOr=ovy: Salar(2D5s255,290507) 
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// 画 直 线 
std: :Vector<CcV::Vec41>::const_iterator it2= 
lines.begin(); 


while (it2!=lines.end()) { 


Gv Polnt DELC(ALE2) [0 tt2))S 
OV POLnt EZ( (RL) 2 Cert) 3 


cv::line( image, ptl1l, pt2, color); 
++it2; 


} 
现在 用 同一 个 输入 图 像 ， 可 以 用 下 面 的 次 序 检测 直线 : 


// 创建 LineFinder 类 的 实例 
LineFinder finder; 





// 设置 概率 霍 夫 变换 的 参数 
finder.setLineLengthAndGap (100,20) ; 
finder.setMinVote(60); 


// 检测 直线 并 画 线 

std: :Vector<cVv::Vec41> lines= finder.findLines (contours); 
finder.drawDetectedLines (image); 

cv: :namedWindow ("Detected Lines with HoughP"); 
cv::imshow("Detected Lines with HoughpP",image); 


上 面 的 代码 得 到 如 下 结果 : 




















7.3.3 ”实现 原理 


霍 夫 变换 的 目的 是 在 二 值 图 像 中 找 出 全 部 直线 , 并 且 这 些 直 线 必须 穿 过 足够 多 的 像素 点 。 它 
的 处 理 方法 是 , 检查 输入 的 二 值 分 布 图 中 每 个 独立 的 像素 点 , 识别 出 穿 过 该 像素 点 的 所 有 可 能 的 
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直线 。 如 果 同 一 条 直线 穿 过 很 多 像素 点 ， 就 说 明 这 条 直线 明显 到 足以 被 认定 。 


为 了 统计 某 条 直线 被 标识 的 次 数 ， 霍 夫 变换 使 用 一 个 二 维 累加 器 。 累 加 器 的 大 小 依据 (o, 9) 
的 步 长 确定 ,其 中 (o, 9) 参 数 用 来 表示 一 条 直线 。 为 了 说 明 霍 夫 变换 的 功能 ,我 们 建立 一 个 180 x 200 
的 矩阵 ( 对 应 6 的 步 长 为 x/180，p 的 步 长 为 1 ): 

// 创建 土 夫 累加 器 
// 这 里 的 图 像 类 型 为 uchar; 实际 使 用 时 应 该 用 int 
Cv Mat ”ace(2007 L180 CV 8U ey: :Scalar (0 )s 

累加 器 是 不 同 于 (p, 9) 值 的 映射 表 。 因 此 , 矩阵 的 每 个 人 口 都 对 应 一 条 特定 的 直线 。 现 在 我 们 
假定 某 个 像素 点 的 坐标 为 (50, 30)， 这 样 就 可 以 循环 遍历 所 有 可 能 的 9 值 ( 步 长 xw/180 )， 并 计算 对 
应 的 ( 四 舍 五 人 ) p 值 ， 从 而 标识 出 穿 过 这 个 像素 点 的 全 部 直线 : 


// 选取 一 个 像素 点 
Tit 0y, Y=30 

















// 循环 遍历 所 有 角度 


fo (nt i103 cL80: 二 站 ) 和 
double theta= i*PI/180.; 


// 找到 对 应 的 rho 值 

double rho= x*std::cos(theta)+y*std::sin(theta); 
// j 对 应 在 -100 到 100 范 围 内 的 rho 

int j= static_ cast<int>(rho+100.5); 





StadeOut 六 Leridl:; 


// 增值 累加 器 
acc.at<uchar>(j,i)++; 


J} 
每 次 计算 得 到 (p, 9) 对 后 , 其 对 应 的 累加 器 入 口 的 数值 就 会 增加 , 表示 对 应 的 直线 穿 过 了 图 像 
中 的 某 个 像素 点 (或 者 说 ， 每 个 像素 点 为 一 批 候选 直线 投票 )。 如 果 把 累加 器 作为 图 像 显 示 ( 翻 
转 过 来 ， 并 乘 以 100， 以 便 数 字 1 能 显示 )， 结 果 如 下 : 


























上 面 的 曲线 表示 穿 过 这 个 点 的 所 有 直线 的 集合 。 现在 我 们 用 像素 点 (30, 10) 重 复 上 述 过 程 , 得 
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到 的 累加 器 如 下 所 示 : 











可 以 看 到 ,这 两 条 曲线 在 一 个 位 置 相 交 : 这 个 位 置 表示 对 应 的 直线 通过 了 这 两 个 像素 点 。 累 
加 器 的 对 应 人 口 收 到 了 两 次 投票 , 表明 有 两 个 像素 点 在 这 条 直线 上 。 如 果 对 二 值 分 布 图 中 的 所 有 
像素 点 重复 上 述 过 程 ， 那 么 同一 条 直线 上 的 像素 点 会 使 累加 器 的 同一 个 人 口 增长 很 多 次 。 最 后 ， 
为 了 检测 图 像 中 的 直线 ( 即 像素 点 对 齐 的 位 置 )， 只 需要 标识 出 累加 器 中 的 局 部 限 值 ， 该 累加 器 
用 于 接收 大 量 投票 数 。cv: :HoughLines 孙 数 的 最 后 一 个 参数 就 表示 最 低 投 票数 ,只 有 不 低 于 这 
个 数 的 直线 才 会 被 检测 到 。 例 如 我 们 把 这 个 数字 降低 到 50， 如 下 : 

cv::HoughLines (test ,Lines,1,PI/180,50) ; 

用 这 个 代码 ， 就 会 在 前 面 的 图 像 中 检测 到 更 多 的 直线 ， 如 下 图 所 示 : 


三 三品 


























时 -， Lines with Hough 














概率 霍 夫 变 换 对 基本 算法 做 了 一 些 修正 。 首先 , 概率 堆 夫 变换 在 二 值 分 布 图 上 随机 选择 像素 
点 ， 而 不 是 系统 性 地 逐 行 扫 描 图 像 。 一 旦 累加 器 的 某 个 人 口 达到 了 预 设 的 最 小 值 ， 就 沿 着 对 应 的 
直线 扫描 图 像 ， 并 移 除 所 有 在 这 条 直线 上 的 像素 点 ( 包括 还 没 投票 的 像素 点 )。 这 个 扫描 过 程 还 
检测 可 以 接受 的 线段 长 度 。 为 此 , 算法 定义 了 两 个 额外 的 参数 : 一 个 是 允许 的 线段 最 小 长 度 ， 另 
一 个 是 组 成 连续 线段 时 允许 的 最 大 像素 间距 。 这 个 额外 的 步骤 增加 了 算法 的 复杂 度 , 但 也 得 到 了 
一 定 的 补偿 , 即 由 于 在 扫描 直线 过 程 中 已 经 清除 了 部 分 像素 点 , 因此 减少 了 投票 过 程 中 用 到 的 像 
素 点 。 
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7.3.4 扩展 阅读 


霍 夫 变换 也 能 用 来 检测 其 他 几何 物体 。 事 实 上 , 任何 可 以 用 一 个 参数 方程 来 表示 的 物体 ,都 
很 适合 用 堆 夫 变换 来 检测 。 


检测 圆 
圆 的 参数 方程 为 : 





=(x—X) +(y—y) 











这 个 方程 包含 三 个 参数 ( 圆 半径 和 圆心 坐标 )， 这 表明 需要 使 用 三 维 的 累加 器 。 然 而 ， 通 常 
情况 下 ， 累 加 器 的 维 数 越 多 ， 霍 夫 变换 的 可 靠 性 就 越 低 。 在 本 例 中 ,每 个 像素 点 都 会 使 累加 器 增 
加 大 量 的 入口 。 因 此， 精确 地 定位 局 部 尖峰 值 会 变 得 更 加 困难 。 为 解决 这 个 问题 ， 人们 提出 了 各 
种 策略 。OpenCV 采 用 的 策略 是 在 用 霍 夫 变换 检测 圆 的 实现 中 使 用 两 轮 筛选 。 第 一 轮 筛选 使 用 一 
个 二 维 累 加 器 ,， 找 出 可 能 是 圆 的 位 置 。 因 为 圆周 上 像素 点 的 梯度 方向 与 半径 的 方向 是 一 致 的 ,对 
于 每 个 像素 点 ， 累 加 器 中 只 对 治 着 梯度 方向 的 入口 增加 计数 (根据 预先 定义 的 最 小 和 最 大 半径 
值 ), 一旦 检测 到 可 能 的 圆心 ( 即 收 到 了 预定 数量 的 投票 )， 就 在 第 二 轮 筛 选中 建立 半径 值 范围 的 
一 维 直方 图 。 这 个 直方 图 的 尖峰 值 就 是 被 检测 圆 的 半径 。 


实现 上 述 策略 的 cv: :Houghcircles 函 数 结合 了 Canny 检 测 和 霍 夫 变换 。 它 的 调用 方法 是 : 






























































cv::GaussianBlur (image, image,cv::Size(5,5),1.5); 
std: :vector<cv: :Vec3f> circles; 
Cv: :HoughCircles (image, circles, CV_HOUGH_GRADIENT, 
2， // 累加 器 分 辨认 (图 像 尺寸 /2) 
50， // 两 个 圆 之 间 的 最 小 距离 
200，// Canny 算 子 的 高 阅 值 
100，// 最 少 投票 数 
25，100); // 最 小 和 最 大 半径 
有 一 点 需要 反复 提醒 , 就 是 在 调用 cv: :Houghcircles 函 数 之 前 要 对 图 像 进 行 平滑 化 , 以 减 
少 图 像 中 可 能 导致 误 判 的 噪声 。 检测 的 结果 存放 在 cv: :vec3f 实 例 的 向 量 中 。 前 面 两 个 数值 是 圆 
心 坐标 ， 第 三 个 数值 是 半径 。 


编写 本 书 时 ，cV_HOUGH_GRADIENT 是 唯一 可 用 的 参数 ， 它 代表 两 轮 筛选 的 圆 形 检测 方法 。 
第 四 个 参数 定义 了 累加 器 的 分 辨 率 ， 它 是 一 个 分 割 比例 。 例 如 ， 数 值 ? 表 示 累 加 器 是 图 像 尺 十 的 
一 半 。 下 一 个 参数 是 两 个 被 检测 的 圆 之 间 的 最 小 像素 距离 。 另 一 个 参数 是 Canny 边 缘 检 测 器 的 高 
效 值 。 低 阔 值 通常 设置 为 高 阔 值 的 一 半 。 第 七 个 参数 是 圆心 位 置 必须 收 到 的 最 少 投票 数 ， 只 有 在 
第 一 轮 筛选 时 收 到 的 投票 数 超过 该 值 , 才能 作为 候选 的 圆 进 入 第 二 轮 得 选 。 最 后 的 两 个 参数 是 被 
检测 圆 的 最 小 和 最 大 半径 值 。 可 以 看 出 ， 这 个 函数 包含 的 参数 太 多 了 ， 很 难 调节 。 


得 到 存放 圆 的 向 量 后 ， 就 可 以 在 图 像 上 画 出 这 些 圆 。 方 法 是 迭代 遍历 该 向 量 ， 并 调用 
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cvi:circle 力 数 ， 传 人 获得 的 参数 : 


std: :vector<cv: :Vec3f>:: 
const_iterator itc= circles.begin(); 


while (itc!=circles.end()) { 


cv::circle(image, 








cv::Point ((*itc) [0]， (*itc)[1]), // 圆心 
(*itc) [2]， // 半径 
cv::Scalar(255)，// 颜色 
2) ; // 厚度 

++itc; 


} 


使 用 上 述 方法 和 参数 在 测试 图 像 上 执行 ， 得 到 如 下 结果 : 











[Nm Detected Circles 二 -时 














7.3.5 ”参阅 


口 C. Galambos、J. Kittler 和 J. Matas 发 表 在 IEE Vision Image and Sienal Processing 2002 年 第 148 
卷 第 3 期 第 158 页 至 第 165 页 上 的 文章 “Gradient-based Progressive Probabilistic Hough 
Transform” 对 霍 夫 变 换 的 方法 进行 了 大 量 引用 ， 并 且 描 述 了 OpenCV 中 实现 的 概率 算法 。 

口 HK. Yuen、J. Princen、J.Illingworth 和 J Kittler 发 表 在 Image and Vision Computing 1990 年 第 
8 卷 第 1 期 第 71 页 至 第 77 页 上 的 文章 “Comparative Study of Hough Transform Methods for 
Circle Finding” 描 述 了 用 霍 夫 变 换 检测 圆 的 各 种 策略 。 


7.4 点 集 的 直线 拟 合 


在 某 些 应 用 中 ， 重 要 的 不 仅 是 检测 出 图 像 中 的 直线 ， 还 需要 精确 地 估计 直线 的 位 置 和 方向 。 
本 节 介 绍 如 何 找到 最 适合 指定 点 集 的 直线 。 
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7.4.1 如 何 实现 


首先 需要 识别 出 图 像 中 靠近 直线 的 点 。 我 们 使 用 一 条 上 节 检 测 到 的 直线 。 把 cv: :Hough- 
LinesP 检 测 到 的 直线 存放 在 sta: :vector<cv::Vec4i> 类 型 的 变量 lines 中 。 为 了 提取 出 靠近 
第 一 条 直线 的 点 集 ， 可 以 继续 以 下 步 又。 在 黑色 图 像 上 画 一 条 白色 直线 , 并且 穿 过 用 于 检测 直线 
的 Canny 轮 廓 图 。 这 可 以 用 这 些 语句 实现 : 


























int n=0; // 选用 直线 0 
// 黑色 图 像 
cv::Mat oneline(contours.size(),CV_8U,cv::Scalar (0)); 
// 和 白色 直线 
cv::line(oneline, 
cv::Point (lines[n] [0],lines[n] {1]), 
cv::Point (lines[n] [2],lines[n] {3]), 
CV OaLar (2D5) 
3); // 直线 宽度 
// 轮廓 与 白色 直线 进行 “与 ”运算 


cv::bitwise _ and(contours,oneline,oneline); 

结果 是 一 个 只 包含 了 与 指定 直线 相关 的 点 的 图 像 ,为 了 引入 公差 ,我 们 画 了 具有 一 定 宽度 ( 这 
里 是 3 ) 的 直线 。 因 此 位 于 指定 邻 域内 的 点 都 被 接受 。 下 面 是 获得 的 图 像 (为 了 显示 效果 更 好 ， 
对 其 做 了 反 转 ): 


























One line 二 




















然后 可 以 把 这 些 点 的 坐标 插入 到 cv: :Point 对 象 的 std: :vector 类 型 中 (也 可 以 使 用 浮 点 
数 坐 标 ， 即 cv: :Point2f ); 代码 如 下 : 


std: :vector<cv::Point> points; 
// 迭代 遍历 像素 ,得 到 所 有 点 的 位 置 
for( int y = 0; y < oneline.rows; y++ ) { 


// 行 y 


uchar* rowPtr = oneline.ptr<uchar>(y); 
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for( int x = 0; x < oneline.cols; x++ ) { 
// 列 X 


// 如 果 在 轮廓 上 
if (rowPtr[x]) { 


points.push back(cv::Point (x,y)); 


} 
用 OpenCV 的 函数 cv: :fitLine， 可 以 很 容易 地 得 到 最 优 的 拟 合 直线 : 


cv::Vec4f line; 

cv::fitLine(points,1line, 
CV_DIST_L2，// 距离 类 型 
Di // L2 距 离 不 用 这 个 参数 
0.01,0.01); // 精度 


上 述 代码 用 直线 方程 式 作 为 参数 ， 它 的 形式 是 一 个 单位 方向 向 量 (cvvec4E 的 前 两 个 数值 ) 
和 直线 上 一 个 点 的 坐标 (cvVec4E 的 后 两 个 数值 )。 本 例 中 , 方向 向 量 是 (0.83, 0.55)， 点 的 坐标 是 
(366.1, 289.1)。 最 后 两 个 参数 是 所 需 的 直线 精度 。 


直线 方程 式 通常 用 于 某 些 属性 的 计算 〈 例如 需要 精确 参数 的 校准 )。 为 了 演示 它 的 用 法 ， 也 
为 了 验证 计算 的 直线 是 否 正确 ， 我 们 在 图 像 上 模拟 一 条 直线 。 这 里 只 是 随意 地 画 一 条 长 度 为 100 
像素 ， 宽 度 为 3 像素 的 黑色 线段 : 


int x0= line[2]; // 直线 上 的 一 个 点 
int y0= line[3]; 
int x1l= x0+100*1line[0]; // 加 上 长 度 为 100 的 向 量 (用 单位 向 量 生成 ) 
int yl= y0+100*line[1]; 
// 绘制 这 条 线 
cv::line(image,cv::Point (x0,y0),cv::Point (xl,y1), 
0,3); // 颜色 和 宽度 


结果 如 下 : 
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7.4.2 ”实现 原理 


点 集 的 直线 拟 合 是 一 个 经 典 的 数学 问题 。OpenCV 的 实现 方法 ， 是 使 每 个 点 到 直线 的 距离 之 
和 最 小 化 。 在 众多 用 于 计算 距离 的 函数 中 ， 欧 几 里 德 距离 的 计算 速度 最 快 ， 所 用 参数 为 
CV_DIST_L2。 这 一 选项 对 应 了 标准 的 最 小 二 乘法 直线 拟 合 。 如 果 点 集中 包含 了 孤立 点 ( 即 不 属 
于 直线 的 点 )， 可 以 选用 其 他 距离 函数 ， 以 减少 远 距 离 的 点 带 来 的 影响 。 最 小 化 计算 的 基础 是 M 
估算 法 技术 , 该 算法 采用 迭代 方式 解决 加 权 最 小 二 乘法 问题 , 其 中 权重 与 点 到 直线 的 距离 成 反比 。 


我 们 也 可 以 用 这 个 函数 在 三 维 点 集 上 拟 合 直线 。 这 时 输入 的 是 cv: :Point3i 或 cv: :Point3f 
对 象 的 集合 ， 输 出 的 是 一 个 sta: :Vec6f 实 例 。 








































































































7.4.3 扩展 阅读 
cv::fitEgllipse 国 数 在 二 维 点 集 上 拟 合 一 个 顶 圆 。 它 返回 一 个 旋转 的 抢 形 〈 一 个 
cv: :RotatedRect 实 例 )， 和 矩形 中 有 一 个 内 切 的 椭圆 。 对 应 的 代码 如 下 : 


Cv::RotatedRect rrect= cv::fitEllipse(cv::Mat (points)); 
cv::ellipse(image,rrect,cv::Scalar (0)); 








7.5 提取 区 域 的 轮廓 


图 像 通常 包含 各 种 物体 , 图 像 分 析 的 目的 之 一 就 是 识别 和 提取 这 些 物体 。 在 物体 检测 和 识别 
程序 中 , 第 一 步 通 常 就 是 生成 二 值 图 像 ， 以 得 到 被 关注 物体 所 处 的 位 置 。 不 管用 什么 方式 获得 二 
图 像 ( 例如 用 第 4 章 的 直方 图 反 向 投影 ， 或 者 用 第 11 章 的 运动 分 析 )， 下 一 个 步骤 都 是 从 由 1 和 0 
组 成 的 像素 集合 中 提取 出 物体 。 


例如 我 们 来 看 第 5 章 的 含有 水 牛 的 二 值 图 像 ， 如 下 图 所 示 : 


4 了 


芍 



































获得 这 个 图 像 的 方法 是 执行 一 次 简单 的 国 值 化 操作 , 然后 应 用 开启 和 闭合 形态 学 滤波 器 。 本 
节 将 介绍 如 何 从 这 样 的 图 像 中 提取 物体 。 具体 来 说 , 就 是 提取 连通 区 域 ,， 即 二 值 图 像 中 由 一 批 连 
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通 的 像素 构成 的 形状 。 


7.5.1 如 何 实现 
OpenCV 提 供 了 一 个 简单 的 函数 ， 可 以 提取 出 图 像 中 连通 区 域 的 轮廓 。 这 个 函数 就 是 


cv::findContours: 








// 用 于 存储 轮廓 的 向 量 
std: :vector<std: :vector<cv::Point>> contours; 
cv::findContours (image, 

contours，// 存储 轮廓 的 向 量 

CV_RETR_EXTERNAL，// 检索 外 部 轮廓 

CV_CHAIN_APPROX_NONE) ; // 每 个 轮廓 的 全 部 像素 
显然 ， 函 数 输入 的 就 是 上 述 二 值 图 像 。 输 出 的 是 一 个 存储 轮廓 的 向 量 ， 每 个 轮廓 用 一 个 
cv: :Point 类 型 的 向 量 表示 。 因此 输出 参数 是 一 个 由 std: :Vector 实 例 构 成 的 sta: :vector 实 
例 。 并 且 指 明了 两 个 选项 。 第 一 个 选项 表示 只 检索 外 部 轮廓 ， 即 物体 内 部 的 空 穴 会 被 忽略 ( 7.5.3 
节 将 讨论 其 他 的 选项 )。 第 二 个 选项 指明 了 轮廓 的 格式 。 使 用 当前 的 选项 ， 向 量 将 列 出 轮廓 的 全 
部 点 。 如 使 用 cv_cHAIN_APPROX_SIMPLE， 则 只 会 列 出 包 仿 水平、 垂直 或 对 角 线 轮廓 的 端点 。 
用 其 他 选项 可 得 到 逼近 轮廓 的 更 复杂 的 链 ， 对 轮廓 的 表示 将 更 其 凑 。 在 前 面 的 图 像 中 可 检测 到 9 
个 连通 区 域 ， 用 contours .szie() 查 看 轮廓 的 数量 。 


有 一 个 非常 实用 的 函数 ， 可 在 图 像 ( 这 里 用 白色 图 像 ) 上 夯 出 那些 区 域 的 轮廓: 
// 在 白色 图 像 上 画 黑 色 轮 廊 


cv::Mat result (image.size(),CV_8U,cv::Scalar (255)); 
Cv::drawContours (result,contours, 

-1，// 画 全 部 轮 廊 

0，// 用 黑色 务 

2);// 宽度 为 2 


如 果 这 个 函数 的 第 三 个 参数 是 负数 ， 就 画 出 全 部 轮廓 ， 否 则 就 可 以 指定 要 画 的 轮廓 的 序号 。 
得 到 的 结果 如 下 : 
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7.5.2 ”实现 原理 


提取 轮廓 的 算法 很 简单 ， 它 系统 地 扫描 图 像 ， 直 到 找到 连通 区 域 。 从 区 域 的 起 点 开始 , 沿 着 
它 的 轮廓 对 边界 像素 做 标记 。 处 理 完 这 个 轮廓 后 就 从 上 个 位 置 恢复 扫描 过 程 , 直到 发 现 新 的 区 域 。 





然后 可 以 对 识别 出 的 连通 区 域 进行 独立 的 分 析 。 例 如 , 如 果 事 先 已 经 知道 所 关注 物体 的 大 小 ， 
就 可 以 将 部 分 区 域 删除 。 我 们 采用 区 域 边界 的 最 小 和 最 大 值 。 具体 做 法 是 迭代 遍历 存放 轮廓 的 向 
量 ， 并且 删除 无 效 的 轮廓 : 


// 删除 太 短 或 太 长 的 轮廓 

int cmin= 50; // 最 小 轮 廊 长 度 

int cmax= 1000; // 最 大 轮 廊 长 度 

std: :vector<std: :Vector<cV: :Point>>:: 
iterator itc= contours.begin(); 


// 针对 所 有 轮廓 


while (itc!l=contours.end()) { 
// 验证 轮廓 大 小 
if (itc->size() < cmin || itc->size() > cmax) 
itc= contours.erase(itc); 
else 
++itc; 


} 


因为 在 sta: :vector 中 的 删除 操作 的 时 间 复 杂 度 为 OCW), 所 以 这 个 循环 的 效率 还 可 以 更 高 。 
不 过 对 于 小 型 向 量 ， 总 体 的 开销 并 不 大 。 这 次 我 们 在 原始 图 像 上 画 出 剩 下 的 轮廓 ， 结 果 如 下 : 





村 -| Contours on Animals 一 口 

















这 个 图 像 刚 好 有 这 种 简单 的 规则 ,可 用 来 识别 所 有 的 关注 目标 。 在 更 复杂 的 情况 下 ， 就 需要 
对 区 域 的 属性 做 更 精细 的 分 析 。 这 正 是 下 一 节 要 做 的 。 
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7.5.3 扩展 阅读 


cv: :findContours 函 数 也 能 检测 二 值 图 像 中 所 有 的 闭合 轮廓, 包括 区 域内 部 空 穴 构成 的 轮 
廊 。 实 现 方法 是 在 调用 函数 时 指定 男 一 个 标志 : 











cv::findContours (image, 
contours，// 存放 轮廓 的 向 量 
CV_RETR_LIST，// 检索 全 部 轮廓 
CV_CHAIN_APPROX_NONE) ; // 每 个 轮廓 的 全 部 像素 


调用 后 得 到 如 下 轮廓 : 








All Contours 一 口 
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注意 , 背景 森林 中 增加 了 额外 的 轮廓 。 也 可 以 把 这 些 轮廓 分 层次 组 织 起 来 。 主 区 域 是 父 轮廓 ， 
它 内 部 的 空 穴 是 它 的 子 轮廓 ， 如 果 空 穴内 部 还 有 区 域 , 那 它们 就 是 上 述 子 轮廓 的 子 轮 廊 ， 以 此 类 
推 。 使 用 cv_RETR_TREE 标 志 可 得 到 这 个 层次 结构 ， 代 码 为 : 




















std: :vector<cv: :Vec4i> hierarchy; 
cv::findContours (image, 
contours，// 存放 轮廓 的 向 量 
hierarchy，// 层次 结构 
CV_RETR_TREE，// 用 树 状 结构 式 检索 全 部 轮廓 
CV_CHAIN_APPROX_NONE) ; // 每 个 轮廓 的 全 部 像素 


本 例 中 每 个 轮廓 都 有 一 个 对 应 的 层次 元 素 , 存放 次 序 与 轮廓 相同 。 层 次 元 素 由 四 个 整数 构成 ， 
前 两 个 整数 是 下 一 个 和 上 一 个 同 级 轮廓 的 序号 , 后 两 个 整数 是 第 一 个 子 轮 廊 和 父 轮廓 的 序号 。 如 果 
序号 为 负数 ， 就 表示 轮廓 列表 的 未 端 。cV_RETR_ccoMP 标 志 的 作用 与 之 类 似 , 但 只 人 允许 两 个 层次 。 
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连通 区 域 通常 代表 着 场景 中 的 某 个 物体 。 为 了 识别 该 物体 , 或 将 它 与 其 他 图 像 元 素 比较 , 需 
要 对 此 区 域 进行 测量 ， 以 提取 出 部 分 特征 。 本 节 介 绍 几 种 OpenCV 的 形状 描述 子 ， 用 于 描述 连通 
区 域 的 形状 。 
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7.6.1 如 何 实现 


OpenCV 中 用 于 形状 描述 的 函数 有 很 多 。 我 们 把 其 中 的 几 个 函数 应 用 到 上 节 提 取 的 区 域 。 特 

别 是 使 用 包含 四 个 轮廓 的 向 量 , 这 些 轮廓 分 别 代表 前 面 已 经 识别 的 四 头 水 牛 。 在 下 面 的 代码 段 中 ， 

我 们 将 计算 轮廓 的 形状 描述 子 (从 contours[10] 到 contours[3] )， 并 在 轮廓 图 像 〈 宽度 为 1 ) 
上 夯 出 结果 ( 宽度 为 2 )。 图 像 见 本 段 后 面 。 


第 一 个 是 边界 框 ， 用 于 右 下 角 的 区 域 : 


// 测试 边界 框 

cvV::Rect r0= cv::boundingRect (contours{[0]); 
// 务 算 形 

cv::rectangle(result,r0, 0, 2) 


最 小 覆盖 圆 的 情况 也 类 似 。 它 用 于 右上 角 的 区 域 : 


// 测试 覆盖 圆 
float radius; 
cv::Point2f center; 
cv::minEnclosingCircle(contours[1],center,radius); 
// 画 圆 形 
cv::circle(result,center, 
static cast<int>(radius),cv::Scalar (0),2); 


计算 区 域 轮廓 的 多 边 形 逼近 的 代码 如 下 《〈 位 于 左 侧 区 域 ): 





























// 测试 多 边 形 允 近 

std: :vector<cv::Point> poly; 

Cv: :approxPolyDP (contours{[2],poly,5,true); 
// 画 多 边 形 

cv::polylines (result, poly, true, 0, 2); 


注意 多 边 形 绘制 函数 cv: :polylines， 它 与 其 他 画图 函数 很 相似 。 第 三 个 布尔 型 参数 表示 
轮 该 廓 是 否 闭合 (如果 闭 合 ， 最 后 一 个 点 将 与 第 一 个 点 相连 )。 


凸 包 是 另 一 种 形式 的 多 边 形 通 近 〈 位 于 左边 第 二 个 区 域 ): 


// 测试 凸 包 

std: :vector<cv::Point> hull; 
cv::convexHull (contours[3] ,hull); 

// 画 多 边 形 

cvV::Dolylines (esult，hul1l，true，0，2): 


最 后 ， 计 算 轮 廓 矩 是 另 一 种 功能 强大 的 描述 子 〈 在 所 有 区 域内 部 画 出 重心 ): 


// 测试 轮廓 算 

// 和 迭代 遍历 所 有 轮廓 

itc= contours.begin(); 

while (itc!=contours.end()) { 
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// 计算 全 部 轮廓 算 
cv::Moments mom= cv::moments(cv::Mat (*itc++)); 


// 画 重 心 
cv::circle(result, 
// 重心 位 置 转换 成 整数 
cv::Point (mom.m10/mom.m00,mom.m01/mom.m00), 
2,cv::Scalar(0) ,2); // 画 黑 点 
} 


结果 如 下 : 





Some Shape descriptors 到 
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7.6.2 ”实现 原理 


在 表示 和 定位 图 像 中 的 区 域 方法 中 ,边界 框 可 能 是 最 简洁 的 。 它 的 定义 是 : 能 完整 包含 该 形 
状 的 最 小 垂直 矩形。 比较 边 界 框 的 高 度 和 宽度 ， 可 以 获得 物体 的 在 垂直 或 水 平方 向 的 范围 。 最 小 
覆盖 圆通 常用 在 只 需要 区 域 尺寸 和 位 置 的 近似 值 的 情况 。 



































如 果 要 更 紧凑 地 表示 区 域 的 形状 ， 可 采用 多 边 形 逼近 。 在 创建 时 要 制定 精确 度 参数 ， 表 示 形 
状 与 对 应 的 简化 多 边 形 之 间 能 接受 的 最 大 距离 。 它 是 cv: :approxPolyDP 隙 数 的 第 四 个 参数 。 返 














回 的 结果 是 cv: : Point 类 型 的 向 量 , 表示 多 边 形 的 顶点 个 数 。 在 画 这 个 多 边 形 时 , 要 迭代 遍历 整 
个 向 量 ， 并 在 顶点 之 间 画 直线 ， 把 它们 逐个 连接 起 来 。 











形状 的 西 包 (或 凸 包 络 )， 是 包含 该 形状 的 最 小 凸 多 边 形 。 可 以 把 它 看 作 一 条 绕 在 区 域 周围 
的 橡皮 筋 。 可 以 看 出 ， 在 形状 轮廓 中 四 进去 的 位 置 ， 凸 包 轮 廓 会 与 原始 轮廓 发 生 偏 离 。 

通常 可 用 上 同 包 缺陷 来 表示 这 些 位 置 ，OpenCV 中 有 一 个 专门 用 于 识别 凸 包 缺陷 的 函数 : 
cv: :convexityDefects。 调 用 方法 如 下 : 


std: :vector<cv: :Vec4i> defects; 
cvV: :convexityDefects (contour, hull, defects); 


参数 contour 和 hu1ll 分 别 表示 原始 轮廓 和 凸 包 轮廓 ( 两 者 都 用 std: :vector<cv: :Point> 
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的 实例 表示 )。 函数 输出 的 是 一 个 向 量 ， 它 的 每 个 元 素 由 四 个 整数 组 成 。 前 两 个 整数 是 顶点 在 轮 
廓 中 的 索引 ,用 来 界定 该 缺陷 ; 第 三 个 整数 表示 凹陷 内 部 最 远 的 点 ; 最 后 的 整数 表示 最 远 点 与 凸 
包 之 间 的 距离 。 


轮 廊 算是 形状 结构 分 析 中 常用 的 数学 模型 。OpenCV 定 义 了 一 个 数据 结构 ， 封 效 了 形状 中 计 
算得 到 的 所 有 轮廓 矩 。 它 是 函数 cv: :moments 的 返回 值 。 这 些 轮廓 矩 共同 代表 了 物体 形状 的 紧 
凑 程 度 ， 常 用 于 特征 识别 。 我 们 只 是 用 该 结构 获得 每 个 区 域 的 重心 ,这 里 用 前 面 三 个 空间 轮廓 矩 
计算 得 到 。 
























































7.6.3 扩展 阅读 


可 以 用 OpenCV 函 数 计算 得 到 其 他 结构 化 属性 ,函数 cv: :minAreaRect 计 算 最 小 履 盖 自由 矩 
形 (在 5.6 节 用 到 了 这 个 函数 )。 函 数 cv: :contourArea 佑 算 轮 廓 的 面积 ( 内 部 的 像素 数量 )。 郴 
数 cv: :pointPolygonTest 判 断 一 个 点 在 轮廓 的 内 部 还 是 外 部 ; 函数 cv: :matchSshapes 度 量 两 
个 轮廓 之 间 的 相似 度 。 所 有 这 些 度量 属性 的 方法 都 可 以 有 效 地 结合 起 来 ,用 于 更 高 级 的 结构 分 析 。 


四 边 形 检测 


第 5 章 讲 到 的 MSER 特 征 ， 可 作为 一 种 从 图 像 提 取 形 状 的 高 效 工 具 。 利 用 前 面 章节 中 用 MSER 
得 到 的 结果 , 现在 我 们 来 构建 一 个 在 图 像 中 监测 四 边 形 区 域 的 算法 。 在 当前 图 像 中 , 该 算法 可 用 
于 检测 建筑 物 上 的 窗户 。 可 以 很 容易 地 获得 MSER 的 二 值 图 像 : 


// 创建 二 值 图 像 

components= components==255; 

// 打开 图 像 (包含 背景 ) 

CVv: :morphologyEx (components,components, 
Cv: :MORPH_OPEN, cv: :Mat (), 
GV Polnt (=1, -1) 3): 


另外 ， 我 们 用 形态 学 滤波 器 来 清理 图 像 。 得 到 的 图 像 如 下 : 



































MSER image 一 口 
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下 一 步 是 获取 轮廓 : 


// 翻 转 图 像 (背景 必须 是 黑色 的 ) 

cV: :Mat componentsInv= 255-components; 

// 得 到 连通 区 域 的 轮廓 

cv::findContours (componentsIny, 
contours，// 轮廓 的 向 量 
CV_RETR_EXTERNAL，// 检索 外 部 轮廓 
CV_CHAIN_APPROX_NONE); 


最 后 得 到 全 部 轮廓 ， 并 用 多 边 形 粗略 地 逼近 它们 : 


// 白色 图 像 


cv::Mat quadri (components.size(),CV_8U,255); 








// 针对 全 部 轮廓 
std::vector<std: :Vector<cV: :Point>>::iterator 
it= contours.begin(); 
while (it!= contours.end()) { 
poly.clear();} 
// 用 多 边 形 区 近 轮 廓 
CVv: :approxPolyDP (*it,poly,10,true); 


// 是 否 四 边 形 ? 


if (poly.size()==4) { 
// 画 出 来 
cv::polylines (quadri, poly, true, 0, 2); 
} 
++it; 


} 
四 边 形 就 是 有 四 条 边 的 多 边 形 。 检 测 结 果 如 下 : 











a MSER quadrilateral 一 
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要 检测 矩形 ， 只 需 测 量 相 邻 边 的 夹 角 ， 并且 排除 夹 角 与 90 度 相差 很 大 的 四 边 形 。 


第 8 章 
仿 测 兴趣 后 








本 章 包 括 以 下 内 容 : 


口 检测 图 像 中 的 角 点 ; 

口 快速 检测 特征 ; 

口 尺度 不 变 特征 的 检测 ; 

口 多 尺度 FAST 特 征 的 检测 。 





8.1 简介 


在 计算 机 视觉 领域 ， 兴 趣 点 〈 也 称 关键 点 或 特征 点 ) 的 概念 已 经 得 到 了 广泛 的 应 用 , 包括 目 
标识 别 、 图 像 配 准 、 视 觉 跟踪 、 三 维 重 建 等 。 这 个 概念 的 原理 是 ， 从 图 像 中 选取 某 些 特征 点 并 对 
图 像 进 行 局 部 分 析 ， 而 非 观 察 整 幅 图 像 。 只 要 图 像 中 有 足够 多 可 检测 的 兴趣 点 ,， 并且 这 些 兴趣 点 
各 不 相同 且 特 征 稳 定 ， 能 被 精确 地 定位 ， 上 述 方法 就 十 分 有 效 。 


因为 要 用 于 网 像 内 容 的 分 析 ,， 所 以 不 管 图 像 拍摄 时 采用 了 什么 视角 、 尺 度 和 方位 ,理想 情况 
下 同一 个 场景 或 目标 位 置 都 要 检测 到 特征 点 。 视 觉 不 变性 是 图 像 分 析 中 一 个 非常 重要 的 属性 , 目 
前 有 大 量 关 于 它 的 人 研究。 我 们 将 会 看 到 , 各 种 检测 方法 具有 不 同 的 不 变性 。 本 章 重 点 关注 的 是 关 
键 点 提取 这 一 过 程 本 身 。 后 面 两 章 将 介绍 兴趣 点 如 何 应 用 在 各 个 方面 , 例如 图 像 匹 配 或 图 像 几何 
估计 。 






































8.2 ”检测 图 像 中 的 角 点 


在 图 像 中 搜索 有 价值 的 特征 点 时 , 使 用 角 点 是 一 种 不 错 的 方法 。 角 点 是 很 容易 在 图 像 中 定位 
的 局 部 特征 ， 并 且 大 量 存在 于 人 造物 体 中 ( 例如 墙壁 、 门 、 窗 户 、 桌 子 等 产生 的 角 点 )。 角 点 的 
价值 在 于 它 是 两 条 边缘 线 的 接合 点 ,是 一 种 二 维特 征 ,可 以 被 精确 地 定位 ( 即使 是 子 像素 级 精度 )。 
与 此 相反 的 是 位 于 均匀 区 域 或 物体 轮廓 上 的 点 以 及 在 同一 物体 的 不 同 图 像 上 很 难 重复 精确 定位 
的 点 。Harris 特 征 检测 是 检测 角 点 的 经 典 方法 。 本 节 将 详细 探讨 这 个 方法 。 
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8.2.1 如 何 实现 
OpenCV 中 检测 Harris 角 点 的 基本 函数 是 cv: :cornerHarris， 它 非常 易于 使 用 。 调 用 该 函 


数 时 输入 一 个 图 像 , 返回 的 结果 是 一 个 浮 点 数 型 图 像 ， 其 中 每 个 像素 表示 角 点 强度 。 然 后 对 输出 
图 像 阔 值 化 ， 以 获得 检测 角 点 的 集合 。 代 码 如 下 : 


// 检测 Harris 角 点 
cV: :Mat cornerStrength; 








cv: :cornerHarris (image， // 输入 图 像 
cornerStrength，// 角 点 强度 的 图 像 
3 // 邻 域 尺寸 
3 // 口径 尺寸 
0.01); // Harris 参 数 


// 对 角 点 强度 闪 值 化 

cV: :Mat harrisCorners; 

double threshold= 0.0001; 

cv::threshold(cornerStrength,harrisCorners, 
threshold,255,cv: :THRESH_BINARY),，; 


这 是 原始 图 像 : 





四 


砷 } Original 一 














结果 是 一 个 二 值 分 布 图 像 ， 如 下 图 所 示 。 这 种 反 转 处 理 是 为 了 更 直观 地 观察 结果 ( 即 用 
cv: :THRESH_BINARY_INV 代 替 cv: :THRESH_BINARY， 用 黑色 表示 被 检测 的 角 点 ): 
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在 前 面 的 函数 中 ， 我 们 发 现 兴 趣 点 检测 法 需要 使 用 几 个 参数 (下 一 节 会 详细 解释 )， 这 可 能 
会 导致 该 方法 很 难 调节 。 而 且 得 到 的 角 点 分 布 图 中 包含 很 多 聚集 的 角 点 像 而 不 是 我 们 想 要 检 
测 出 的 具有 明确 定位 的 角 点 。 因 此 我 们 定义 一 个 检测 Harris 角 点 的 类 ， 以 改进 角 点 检测 方法 。 


这 个 类 封装 了 带 有 缺 省 值 的 Harris 人 参数， 以 及 对 应 的 获取 方法 和 设置 方法 ( 这 里 没有 列 出 ): 


class HarrisDetector { 


























private: 


// 32 位 浮 点 数 型 的 角 点 强度 图 像 
cv::Mat cornerStrength; 
// 32 位 浮 点 数 型 的 阅 值 化 角 点 图 像 
cv::Mat cornerTh; 

// 局 部 最 大 值 图 像 (内 部 ) 
cv::Mat localMax; 

// 平滑 导数 的 邻 域 尺寸 

int neighbourhood; 

// 梯度 计算 的 口径 

int aperture; 

// Harris 参 数 

double k; 

// 阅 值 计算 的 最 大 强度 
double maxStrength 

// 计算 得 到 的 阅 值 (内 部 ) 
double threshold; 

// 非 最 大 值 抑 制 的 邻 域 尺 十 
int nonMaxSize; 

// 非 最 大 值 抑 制 的 内 核 


cv::Mat kernel; 











public: 


HarrisDetector() : neighbourhood(3), aperture(3), 
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k(0.01), maxSstrength(0.0), 
threshold(0.01), nonMaxSize(3) { 


// 创建 用 于 非 最 大 值 抑制 的 内 核 


setLocalMaxWindowSize (nonMaxSize); 


} 
检测 Harris 角 点 需要 两 个 步 又 。 首 先是 计算 每 个 像素 的 Harris 值 ; 


// 计算 Harris 角 点 
void detect (const cv::Mat& image) { 























// 计算 Harris 

cv::cornerHarris (image,cornerStrength, 
neighbourhood,// 邻 域 尺寸 
aperture, // 口径 尺寸 
k); // Harris 参 数 





// 计算 内 部 阅 值 
cv: :minMaxLoc (cornerStrength, 
0, maxStrength); 


// 检测 局 部 最 大 值 

cv::Mat dilated; // 临时 图 像 

cv::dilate(cornerStrength,dilated,cv::Mat()); 

cv: :compare (cornerStrength,dilated, 
localMax,cv: :CMP_EQ); 





} 
然后 是 用 指定 的 阀 值 获得 特征 点 。 因 为 Harris 值 的 可 选 范围 取决 于 选择 的 参数 ， 所 以 阔 值 被 
作为 质量 等 级 ， 用 最 大 Harris 值 的 一 个 比例 值 表示 : 


// 用 Harris 值 得 到 角 点 分 布 图 
cvV::Mat getCornerMap(double qualityLevel) { 




















Cv::Mat cornerMap; 


// 对 角 点 强度 阅 值 化 

threshold= qualityLevel*maxStrength; 

cv::threshold(cornerStrength,cornerTh, 
threshold,255,cv: :THRESH_BINARY),，; 


// 转换 成 8 位 图 像 


cornerTh.convertTo(cornerMap,CV_8U); 


// 非 最 大 值 抑 制 


cv::bitwise _ and(cornerMap,localMax,cornerMap); 


return cornerMap; 


} 
这 个 方法 返回 一 个 被 检测 特征 的 二 值 角 点 分 布 图 。 因为 Harris 特 征 的 检测 过 程 分 为 两 个 方法 ， 
所 以 我 们 可 以 用 不 同 的 阔 值 来 测试 检测 结果 ( 直到 获得 适当 数量 的 特征 点 )， 而 不 必 重 复 耗 时 的 
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计算 过 程 。 也 可 以 从 cv: :Point 类 型 的 stdq: :vector 中 得 到 Harris 特 征 : 


// 用 Harris 值 得 到 角 点 分 布 图 
void getCorners (std: :Vector<cV: :Point> &points, 
double qualityLevel) { 





// 获得 角 点 分 布 图 

cvV: :Mat cornerMap= getCornerMap (qualityLevel); 
// 获得 角 点 

getCorners (points, cornerMap); 


} 





// 用 角 点 分 布 图 得 到 特征 点 
void getCorners (std: :Vector<cV: :Point> &points, 
const cv::Mat& cornerMap) { 


// 选 代 遍 历 像素 ， 得 到 所 有 特征 


for( int y = 0; y < cornerMap.rows; y++ ) { 
Const uchar* rowPtr = cornerMap.ptr<uchar>(y); 
for( int x = 0; x < cornerMap.cols; x++ ) { 


// 如 果 它 是 一 个 特征 点 
if (rowPtr[x]) { 


points.push back(cv::Point (x,y)); 


} 


这 个 类 通过 增加 非 最 大 值 抑制 步 又， 也 改进 了 Harris 角 点 检测 过 程 ， 下 一 节 会 详细 解释 这 个 
步 又。 现在 可 以 用 cv: :circle 函 数 画 出 检测 到 的 特征 点 ， 方 法 如 下 : 
// 在 特征 点 的 位 置 画 国 形 


void drawOnImage (cv::Mat &image, 
const std::vector<cv::Point> &points, 
CV moalar -dolLOr= OV Ocalar (2 ,209205)3 
int radius=3, int thickness=1) { 








std: :vector<cv::Point>::const_iterator it= 
points.begin(); 


// 针对 所 有 角 点 
while (it!=points.end()) { 


// 在 每 个 角 点 位 置 画 一 个 贺 
Cv::cCcircle (image,*it,radius,color,thickness); 
二 + 七 7 


} 
使 用 这 个 类 检测 Harris 特 征 点 的 方法 如 下 : 
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// 创建 Harris 检 测 器 实例 
HarrisDetector harris; 

// 计算 Harris 值 

harris.detect (image); 

// 检测 Harris 角 点 

std: :vector<cv: :Point> pts; 
harris.getCorners (pts,0.02); 
// 画 出 Harris 角 点 
hartris.dqrawonImage (image,pts); 


结果 如 下 图 所 示 : 














荐 | Corners 











8.2.2 ”实现 原理 
为 了 定义 图 像 中 角 点 的 概念 ，Harris 特 征 检 测 方法 在 假定 的 兴趣 点 周围 放置 一 个 小 窗口 ， 并 


目 


观察 窗口 内 某 个 方向 上 强度 值 的 平均 变化 。 如 果 位 移 向 量 为 ( vy)， 那 么 平均 强度 值 变 化 就 是 : 








RaYIx+tu,y+yv) -T(x,y)) 


累加 的 范围 是 该 像素 周围 一 个 预先 定义 的 邻 域 ( 邻 域 的 尺寸 取决 于 cv: :cornerHarris 国 数 
的 第 三 个 参数 )。 在 所 有 方向 上 计算 平均 强度 变化 值 ， 如 果 多 个 方向 的 变化 值 都 很 高 ， 就 认为 这 
个 点 是 角 点 。 根 据 这 个 定义 ，Harris 测 试 的 步 又 如 下 。 首 先 获得 平均 强度 值 变化 最 大 的 方向 。 然 
后 检查 垂直 方向 上 的 平均 强度 变化 值 ， 看 它 是 否 也 很 大 。 如 果 是 ， 就 说 明 这 是 一 个 角 点 。 


在 数学 上 ， 可 以 用 泰勒 展开 式 近 似 地 计算 上 述 公 式 ， 验 证 这 个 判断 : 


2 2 
RT| UG+D+ ut vy- 1)| =5 国 ll 
Ox Oy Ox Oy Ox Oy 
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写成 矩阵 形式 ， 就 是 : 


oI1Y ~61561 
| 站 
Raz[u vl] : 
St Se 
Ox Oy Ox 
这 是 一 个 协 方差 矩阵 ,表示 在 所 有 方向 上 强度 值 变化 的 速率 。 这 个 定义 包括 了 图 像 的 一 阶 导 
数 ,通常 用 Sobe] 算 子 计 算 一 阶 导数 。 在 OpenCV 的 实现 方式 中 ,这 是 函数 的 第 四 个 参数 ， 表 示 计 
算 Sobel 波 波 器 时 用 的 口径 。 这 个 协 方差 矩阵 的 两 个 特征 值 ， 分 别 表示 最 大 平均 强度 值 变 化 和 重 
直方 向 的 平均 强度 值 变化 。 如 果 这 两 个 特征 值 都 很 小 ,就 说 明 是 在 相对 同 质 的 区 域 。 如 果 一 个 特 
征 值 很 大 ， 另 一 个 很 小 , 那 肯定 是 在 边缘 上 。 最 后 ， 如 果 两 者 都 很 大 ， 那 么 就 是 在 角 点 的 位 置 。 
因此 ， 判 断 一 个 点 为 角 点 的 条 件 是 它 的 协 方差 矩阵 的 最 小 特征 值 必 须 大 于 指定 的 阔 值 。 


Harris 角 点 算法 的 原始 定义 用 到 了 特征 分 解 理论 的 一 些 属性 ， 以 避免 显 式 地 计算 特征 值 带 来 
的 开销 。 这 些 属性 是 : 


口 矩阵 的 特征 值 之 积 等 于 它 的 行列 式 值 ; 
D 矩阵 的 特征 值 之 和 等 于 它 的 对 角 元 素 之 和 ( 也 就 是 矩阵 的 迹 )。 


我 们 可 以 通过 计算 下 面 的 评分 ， 来 验证 矩阵 的 特征 值 高 不 高 : 
































































































































Det(C)—kTrace’ (C) 


只 要 两 个 特征 值 都 高 ， 就 很 容易 证 明 这 个 评分 肯定 也 高 。 这 个 评分 由 函数 cv: :corner 
Harris 在 每 个 像素 的 位 置 计 算得 到 。 数 值 是 函数 的 第 五 个 参数 。 确 定 这 个 参数 的 最 佳 值 是 比较 
困难 的 。 但 是 根据 经 验 ， 它 在 0.05 和 0.5 之 间 通 常 能 得 到 较 好 的 结 


为 了 提升 检测 的 效果 , 前 面 介绍 的 类 增加 了 一 个 额外 的 非 最 大 值 抑制 步骤 。 它 的 作用 是 排除 
掉 紧 邻 的 Harris 角 点 。 因 此 要 被 认定 为 是 Harris 角 点 ,不 仅 要 有 高 于 指定 阔 值 的 评分 ， 还 必须 是 局 
部 范围 内 的 最 大 值 。 为 了 检查 这 个 条 件 ，getect 方 法 中 加 入 了 一 个 小 技巧 ， 即 对 Harris 评 分 的 图 
像 做 膨胀 运算 : 

cv::dilate(cornerStrength,dilated,cv::Mat()); 

膨胀 运算 会 在 邻 域 中 把 每 个 像素 值 蔡 换 成 最 大 值 , 因此 只 有 局 部 最 大 值 的 像素 是 不 变 的 。 用 
下 面 的 相等 测试 可 以 验证 这 一 点 : 


cvV: :compare (cornerStrength,dilated, 
LocalMax, cvV::CMP_EQ) ; 


因此 和 矩 阵 localMax 只 有 在 局 部 最 大 值 的 位 置 才 为 真 ( 即 非 零 )。 然 后 可 在 getcornerMap 方 
法 中 ， 用 它 排 除 掉 所 有 非 最 大 值 的 特征 (用 cv: :pbitwise_and 阴 数 )。 
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8.2.3 扩展 阅读 


还 可 以 对 原始 Harris 角 点 检测 算法 做 进一步 的 优化 。 本 段 介 绍 OpenCV 的 另 一 种 角 点 检测 方 
法 ,， 它 扩展 了 Harris 检 测 法 ,使 角 点 在 图 像 中 的 分 布 更 加 均匀 。 我 们 将 看 到 ， 在 OpenCV2 通 用 接 
口中 实现 了 该 方法 。 


1. 适合 跟踪 的 特征 


随 着 浮 点 处 理 器 的 出 现 , 为 避免 特征 值 分 解 而 进行 数学 上 的 简化 ,意义 已 经 不 大 。 因 此 ,可 
以 通过 显 式 地 计算 特征 值 来 检测 Harris 角 点 。 原 则 上 这 种 修改 不 会 明显 地 影响 检测 结果 ,但 是 可 
以 避免 使 用 随意 的 kx 参数 。 有 两 个 函数 可 以 用 来 显 式 地 计算 Harris 协 方差 矩阵 的 特征 值 ( 以 及 特征 


向 量 )， 即 cv: :cornerEigenvalsAndqVecs 和 cv: :cornerMinEigenVal。 


第 二 项 改进 是 针对 特征 点 聚集 的 问题 。 事实 上 ,尽管 引入 了 局 部 最 大 值 这 个 条 件 ， 兴趣 点 仍 
会 在 图 像 中 不 均匀 分 布 ， 聚集 在 高 度 纹 理化 的 位 置 。 解决 该 问题 的 一 种 方案 , 就 是 限制 两 个 兴 
点 之 间 的 最 短 距离 。 可 以 通过 下 面 的 算法 实现 。 从 Harris 值 最 强 的 点 开始 ( 即 具有 最 大 的 最 低 特 
征 值 ), 只 允许 一 定 距离 之 外 的 点 成 为 兴趣 点 。 在 OpenCV 中 用 函数 cv: :goodFeaturesToTrack 
实现 这 个 算法 。 之 所 以 采用 这 个 函数 名 称 , 是 因为 它 检 测 的 特征 非常 适合 作为 视觉 跟踪 程序 的 起 
始 集合 。 调 用 方法 如 下 : 

// 计算 适合 跟踪 的 特征 

std: :vector<cv: :Point2f> corners; 


cv::goodqFeaturesToTrack (image，// 输入 图 像 
corners，// 角 点 图 像 





















































500 ， // 返回 角 点 的 最 大 数量 
0.01, // 质量 等 级 
10); // 角 点 之 间 允 许 的 最 短 距离 


除了 作为 质量 等 级 的 阔 值 和 兴趣 点 之 间 允 许 的 最 短 距离 , 该 函数 还 使 用 了 返回 角 点 的 最 大 数 
量 〈 角 点 是 按照 强度 排序 的 ， 因 此 这 种 做 法 可 行 )。 上 述 调 用 后 得 到 以 下 结 
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由 于 需要 对 兴趣 点 按照 Harris 评 分 排序 ， 因 此 增加 了 该 方法 检测 的 复杂 度 ， 但 是 它 也 明显 地 
改进 了 兴趣 点 在 整 幅 图 像 中 的 分 布 情况 。 注 意 这 个 函数 还 有 一 个 可 选 的 标志 , 该 标志 要 求 在 检测 
Harris 角 点 时 ， 采 用 经 典 的 角 点 评分 定义 〈 使 用 协 方差 矩阵 的 行列 式 值 和 迹 )。 

2. 特征 检测 方法 的 通用 接口 


OpenCV 2 为 各 种 兴趣 点 检测 方法 引入 了 一 个 通用 的 接口 。 可 以 很 方便 地 在 同一 程序 中 用 这 
个 接口 测试 各 种 兴趣 点 检测 方法 。 

















该 接口 定义 了 cv: :Keypoint 类 ， 封 装 每 个 被 检测 特征 点 的 属性 。 对 于 Harris 角 点 而 言 ， 有 
关 的 属性 只 有 关键 点 位 置 和 它 的 强度 。8.4 节 将 讨论 与 关键 点 有 关 的 其 他 属性 。 














抽象 类 cv: :FeatureDetector 要 求 它 的 继承 类 必须 有 detect 方 法 ， 签 名 如 下 : 


void detect( cons 
cons 


t Mat& image, vector<KeyPoint>& keypoints, 
t Mat& mask=Mat () ) const; 
void detect( const vector<Mat>& images, 
Vector<vector<KeyPoint> >& keypoints, 
const vector<Mat>& masks= 
vector<Mat>() ) const; 








大 二 一 


第 二 个 方法 可 以 在 图 像 向 量 中 检测 兴趣 点 。 这 个 类 还 包含 其 他 方法 , 可 以 从 文件 读 写 被 检测 
的 兴趣 点 。 





Cs goodqFeaturesToTrack 国 数 被 封装 在 cv : :GoodFeaturesToTrackDetector 类 中 ， 


它 是 从 cv: :FeatureDetector 类 继承 的 。 它 的 用 法 与 Harris 角 点 类 差不多 ， 如 下 所 示 : 


// KeyPoint 类 型 的 向 量 
std: :vector<cv: :KeyPoint> keypoints; 
// 适合 跟踪 的 特征 检测 器 的 构造 函数 
CVv: :Ptr<cv: :FeatureDetector> gftt= 
new cvV: :GoodFeaturesToTrackDetector ( 
500， // 返回 角 点 的 最 大 数量 
0.01，// 质量 等 级 
10); // 兴趣 点 之 间 允 许 的 最 短 距离 
// 用 FeatureDetector 方 法 检测 兴趣 点 
gftt->detect (image, keypoints); 


得 到 的 结果 与 前 面相 同 , 这 是 因为 封装 成 类 后 , 最终 调用 的 函数 是 一 样 的 。 注 意 这 里 我 们 用 
了 OpenCV 2 的 智能 指针 类 〈 cv: :Ptr )， 它 会 在 引用 数 降 为 0 时 自动 释放 指针 对 象 ， 第 1 章 对 此 做 
了 解释 。 


















































8.2.4 参阅 


口 C. Harris 和 M.J. Stephens 发 表 在 41vey Vision Conference 1988 年 第 147 页 至 第 152 页 的 
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“A combined corner and edge detector” 是 描述 Harris 算 子 的 经 典 论 文 。 





口 J. Shi 和 C. Tomasi 发 表 在 Int. Conference on Computer Vision and Pattern Recognition 1994 年 
第 593 页 至 第 600 页 的 论文 “Good features to track” 介 绍 了 这 些 特征 。 
口 K. Mikolajczyk 和 C. Schmid 发 表 在 International Journal of Computer Vision 2004 年 第 60 卷 第 





1 期 第 63 页 至 第 86 页 的 论文 “Scale and Affine invariant interest point detectors” 提 出 了 多 尺 
度 和 仿 射 不 变 的 Harris 算 子 。 


8.3 ”快速 检测 特征 


Harris 算 子 对 角 点 ( 或 者 更 通用 的 兴趣 点 ) 作出 了 规范 的 数学 定义 ， 该 定义 基于 在 两 个 互相 








垂直 的 方向 上 
导数 是 非常 耗 


本 方 我 们 











强度 值 的 变化 率 。 虽然 这 是 一 种 很 完美 的 定义 , 但 它 需 要 计算 图 像 的 导数 ,而 计算 
时 的 。 尤 其 要 注意 的 是 ， 检 测 兴 趣 点 通常 只 是 更 复杂 算法 中 的 第 一 个 步骤。 


介绍 另 一 种 特征 点 算 子 , 即 FAST( 加 速 分 割 测试 获得 特征 , Features from Accelerated 



































Segment Test )。 这 种 算 子 专门 用 来 快速 检测 兴趣 点 ; 只 需要 对 比 几 个 像素 ， 就 可 以 判断 是 否 为 关 


键 点 。 


8.3.1 如 何 实现 


由 于 OpenCV2 有 检测 特征 点 的 通用 接口 , 因此 调用 任何 特征 点 检测 器 都 非常 容易 。 本 节 介 绍 
的 是 FAST 检 测 絮 。 顾 名 思 义 ， 它 的 设计 目的 就 是 进行 快速 计算 : 


// 关键 点 


std: :vec 























的 向 量 


tor<cv: :KeyPoint> keypoints; 


// FAST 特 征 检 测 器 的 构造 溃 数 


CV: :Ptr<cv: :FeatureDetector> fast= 


new CV : 


40); / 


:FastFeatureDetector!( 


/ 检测 用 的 阔 值 


// 检测 特征 点 


fast->de 





tect (image, keypoints); 


OpenCV 也 提供 了 在 图 像 上 画 关键 点 的 通用 函数 : 


cv::drawKeypoints (image, // 原始 图 像 
keypoints, // 关键 点 的 向 量 
image, // 输出 图 像 





cv::Scalar(255,255,255)，// 关键 点 的 颜色 
cv::DrawMatchesFlags::DRAW_OVER_OUTIMG); // 画图 标志 


选择 这 个 








画图 标志 后 ， 会 在 输入 图 像 上 画 出 关键 点 ， 输 出 结果 如 下 : 
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有 一 种 比较 有 趣 的 做 法 ， 就 是 用 一 个 负数 作为 关键 点 颜色 。 这 样 一 来 ， 画 每 个 圆 时 会 随机 选 
用 不 同 的 颜色 。 


8.3.2 ”实现 原理 


跟 Harris 检 测 器 的 情况 一 样 ，FAST 算 法 源 于 对 构成 角 点 的 定义 。FAST 对 角 点 的 定义 基于 候 
选 特征 点 周围 的 图 像 强度 值 。 以 某 个 点 为 中 心 作 一 个 圆 , 根据 圆 上 的 像素 值 判断 该 点 是 否 为 关键 
点 。 如 果 存 在 这 样 一 段 圆 弧 ， 它 的 连续 长 度 超过 周 长 的 /44， 并 且 它 上 面 所 有 像素 的 强度 值 都 与 
圆心 的 强度 值 明显 不 同 (全 部 更 黑 或 更 亮 )， 那 么 就 认定 这 是 一 个 关键 点 。 


这 种 测试 方法 非常 简单 ， 计 算 速度 很 快 。 而 且 在 它 的 原始 公式 中 ,算法 还 用 了 一 个 技巧 来 
进一步 提高 处 理 速度 。 如 果 首 先 测试 圆周 上 相隔 90 度 的 四 个 点 〈 例 如 取 上 、 下 、 左 、 右 四 个 位 














置 )， 很 容易 证 明 : 为 了 满足 前 面 的 条 件 ， 必 须 至 少 有 其 中 的 三 个 点 ， 都 比 圆 心 更 亮 或 都 比 圆 
心 更 黑 。 


如 果 不 满足 该 条 件 , 那 就 可 以 立即 排除 这 个 点 ,不 需要 检查 圆周 上 的 其 他 点 。 这 种 方法 非常 
高 效 ， 因 为 在 实际 应 用 中 ， 图 像 中 大 部 分 像素 都 可 以 用 这 种 “四 点 比较 ”法 排除 。 


从 概念 上 讲 ， 用 于 检查 像素 的 圆 的 半径 应 该 作为 方法 的 一 个 参数 。 但 是 根据 经 验 ， 半 径 为 3 
时 可 以 得 到 好 的 结果 和 较 高 的 计算 效率 。 因 此 需要 在 圆周 上 检查 16 个 像素 ， 如 下 图 所 示 : 
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用 来 预测 试 的 像素 是 1、5、9 和 13 ， 比 圆心 更 黑 或 更 亮 的 最 少 连续 像素 数 是 12。 但 是 根据 经 
验 , 把 连续 线段 长 度 减少 到 9, 可 以 使 对 图 像 角 点 的 检测 有 更 好 的 可 重复 性 。 这 一 变种 称 为 FAST-9 
角 点 检测 需 , 并 且 它 就 是 OpenCV 采 用 的 方法 。 注 意 ， 有 一 个 cv: :FAXTX 函 数 ， 用 于 男 一 种 FAST 
检测 需 。 


一 个 点 与 圆心 的 强度 值 的 差距 必须 达到 一 个 指定 的 值 , 才 被 认为 明显 更 黑 或 更 亮 ; 这 个 值 就 
是 调用 冰 数 时 指定 的 阀 值 参数 。 这 个 阔 值 越 大 ， 检 测 到 的 角 点 数量 就 越 少 。 


至 于 Harris 特 征 ， 通 常 最 好 在 发 现 的 角 点 上 执行 非 最 大 值 抑制 。 因 此 ， 需 要 定义 一 个 角 点 强 
度 的 衡量 方法 。 有 多 种 衡量 方法 可 供 选择 ， 下 面 介 绍 的 是 实际 选用 的 方法 。 计 算 中 心 点 像素 与 认 
定 的 连续 圆 浙 上 的 像素 的 差 值 , 然后 将 这 些 差 值 的 绝对 值 累加 , 就 得 到 角 点 强度 。 要 使 用 该 算法 ， 
可 以 直接 调用 函数 : 



























































cv: :FAST (image, // 输入 图 像 
keypoints，// 输出 关键 点 的 向 量 
40， // 阅 值 
false); // 是 否 进 行 非 最 大 值 抑 制 ? 

















但 是 因为 它 比 较 复 杂 ， 推 荐 使 用 cv: :FeatureDetector 接 口 。 


用 这 个 算法 检测 兴趣 点 的 速度 非常 快 , 因此 十 分 适合 需要 优先 考虑 速度 的 应 用 。 这 些 应 用 包 
括 实 时 视觉 跟踪 、 目 标识 别 等 ， 它 们 需要 在 实时 视频 流 中 跟踪 或 匹配 多 个 点 。 











8.3.3 扩展 阅读 


为 了 更 好 地 检测 特征 点 ，OpenCV 提 供 了 一 些 附加 工具 。 
地 控制 提取 关键 点 的 方式 。 


1. 适 配 的 特征 检测 
如 果 要 更 好 地 控制 被 检测 特征 点 的 数量 ， 可 使 用 cv: :FeatureDetector 的 一 个 专门 的 子 








hl 





有 实 上， 有 很 多 类 适 配 副 ， 可 更 好 
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类 ， 即 cv: :DynamicAdqaptedqFeatureDetector。 它 可 以 指定 被 检测 兴趣 点 的 数量 范围 。 这 时 
使 用 FAST 特 征 检测 器 的 方法 如 下 : 
cvV: :DynamicAdaptedqFeatureDetector fastD( 
new cv: :EastAdjuster(40)，// 特征 检测 器 
150, // 特征 的 最 小 数量 
200, // 特征 的 最 大 数量 
50)3 // 最 大 过 代 次 数 
fastD.detect (image,keypoints); // 检测 特征 点 
这 上段 代码 会 采用 迭代 方式 检测 兴趣 点 。 每 次 迭代 后 都 会 检查 兴趣 点 数量 , 并 且 调 整 阔 值 以 增 
加 或 减少 数量 。 这 个 过 程 会 反复 进行 , 直到 被 检测 兴趣 点 的 数量 符合 指定 的 范围 。 为 了 避免 多 次 
检测 浪费 太 多 时 间 ， 我 们 指定 了 最 大 迭代 次 数 。 如 果 用 常规 方式 实现 这 个 方法 ， 则 必须 在 
cv: :FeatureDetector 类 中 实现 cv: :AdjusterAdapter 接 口 。 这 个 类 包含 一 个 tooFew 方 法 
和 一 个 tooMany 方 法 ， 两 个 方法 都 会 修改 内 部 阔 值 ， 以 便 生成 更 多 或 更 少 的 关键 点 。 此 外 还 有 一 
个 gooq 断 言 方法 ， 如 果 检 测 器 的 阔 值 还 能 调节 ， 它 就 返回 true。 要 获得 适当 数量 的 特征 点 ， 采 
用 cv: :DynamicAdaptedFeatureDet ctor 类 是 不 错 的 办 法 。 但 是 必须 明白 ， 它 带 来 好 处 的 同 
时 , 必须 付出 性 能 上 的 代价 。 而 且 在 指定 的 迭代 次 数 内 , 并 不 保证 能 实际 得 到 所 需 数量 的 特征 点 。 


也 许 你 已 经 注意 到 , 传人 的 参数 中 有 一 个 动态 分 配对 象 的 地 址 , 指定 了 即将 在 匹配 类 中 使 用 
的 特征 检测 器 。 你 可 能 想 知道 ， 是 否 必须 在 某 处 释放 分 配 的 内 存 ， 以 避免 内 存 泄漏 。 答案 是 不 需 
要 ， 这 是 因为 这 个 指针 被 传送 到 一 个 cv: :Ptr<FeatureDetector> 类 型 的 参数 ， 它 会 自动 释放 
指向 的 对 象 。 


2. 网 格 适 配 特征 检测 


第 二 个 要 使 用 的 适 配 类 是 cv: :GridAdaptedFeatureDetector。 顾名思义 , 可 以 使 用 它 在 
图 像 上 定义 一 个 网 格 。 网 格 中 的 每 个 单元 格 可 以 设置 一 个 最 大 元 素数 量 。 这 里 的 理念 是 把 被 检测 
的 关键 点 以 更 好 的 方式 扩展 到 整 幅 图 像 上 。 实 际 上 在 检测 图 像 中 的 关键 点 时 , 经 常 出 现 这 种 情况 ， 
即 很 多 兴趣 点 聚集 在 特定 的 纹理 区 域 。 例 如 在 前 面 的 教堂 图 中 两 个 塔楼 的 位 置 就 检测 到 了 非常 密 
集 的 FAST 点 。 这 个 适 配 类 的 用 法 如 下 : 

cv::GridAdaptedFeatureDetector fastG( 

new cv::FastFeatureDetector(10)，// 特征 检测 器 
1200， // 关键 点 总 数 的 最 大 值 

sy // 网 格 的 行 数 

2); // 网 格 的 列 数 

fastG.detect (image, keypoints); 

这 个 适 配 类 的 实现 方法 是 用 cv: :FeatureDetector 对 象 在 每 个 独立 的 单元 格 中 检测 特征 
点 。 同 时 指定 了 总 数 的 最 大 值 。 在 每 个 单元 格 中 , 为 了 不 超出 最 大 限 值 , 只 保留 了 最 强 的 特征 点 。 


3. 金字 塔 适 配 特 征 检测 


适 配 类 cv: :PyramigdAdaptedFeatureDetector 的 做 法 是 在 一 个 图 像 金字 塔 上 应 用 特征 
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检测 器 。 结 果 被 合并 到 输出 的 关键 点 向 量 中 。 调 用 方式 如 下 : 


cvV::PyramidqAdaptedqFeatureDetector fastP( 
new cv: :FastFeatureDetector(60)，// 特征 检测 器 
有 // 金字 塔 的 层 数 
fastP.detect (image, keypoints); 
每 个 点 的 坐标 在 原始 图 像 的 坐标 中 指定 。 并 且 设 置 了 cv: :Keypoint 类 的 专用 属性 size， 设 
置 这 个 属性 后 , 如 果 某 个 图 层 的 分 辩 率 是 原始 图 像 的 一 半 ，, 那么 在 该 图 层 上 检测 到 的 特征 点 的 尺 
才 将 会 是 原始 图 像 上 特征 点 的 两 倍 。 使 用 cv: :aqrawKeypoints 国 数 中 一 个 特殊 标志 后 ， 画 关键 
点 时 用 的 半径 ， 等 于 该 关键 点 的 size 属 性 。 

















司 FASTG) 一 品 











8.3.4 ”参阅 


口 E. Rosten 和 T. Drummond 发 表 在 European Conference on Computer Vision 2006 年 第 430 页 至 
第 443 页 的 “Machine learning for high-speed corner detection” 详 细 描 述 了 FAST 特 征 算法 和 
它 的 变种 。 





8.4 ”尺度 不 变 特征 的 检测 


8.1 节 讲 过 ， 特 征 检测 的 视觉 不 变性 是 一 个 非常 重要 的 概念 。 前 面 介绍 的 特征 检测 器 已 经 可 
以 较 好 地 解决 方向 不 变性 问题 , 即 图像 旋 转 后 仍 能 检测 到 相同 的 特征 点 。 但 是 要 解决 尺度 不 变性 
问题 , 难度 就 大 多 了 。 为 解决 这 一 问题 , 计算 机 视觉 界 引 入 了 尺度 不 变 特征 的 概念 。 它 的 理念 是 ， 
不 仅 在 任何 尺度 下 拍摄 的 物体 都 能 检测 到 一 致 的 关键 点 , 而 且 每 个 被 检测 的 特征 点 都 对 应 一 个 尺 
度 因子 。 理想 情况 下 ,对 于 两 幅 图 像 中 不 同 尺 度 的 的 同一 个 物体 点 , 计算 得 到 的 两 个 尺度 因子 之 
间 的 比率 应 该 等 于 图 像 太 度 的 比率 。 近 几 年 ， 人 们 提出 了 多 种 尺度 不 变 特征 ,本 节 介 绍 其 中 的 一 
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种 : SURF 特 征 。SURF 全 称 为 “加 速 稳健 特征 ”( Speeded Up Robust Feature )， 我 们 将 会 看 到 ， 
它们 不 仅 是 尺度 不 变 特征 ， 而 且 是 具有 较 高 计算 效率 的 特征 。 








8.4.1 如 何 实现 


OpenCV 的 函数 cv: :SURF 实 现 了 SURF 特 征 的 检测 。 也 可 以 通过 cv: :FeatureDetector 使 
用 这 个 函数 ， 代 码 如 下 : 


// SURF 特 征 检测 器 的 构造 孙 数 

Cv: :Ptr<cv::FeatureDetector> detector = 
new cv::SURF(2000.); // 阅 值 

// 检测 SURF 特 征 


detector->detect (image, keypoints); 





为 了 夯 出 这 些 特征 ， 我 们 仍 使 用 OpenCV 的 cv: :drawKeypoints 限 数 ， 并 且 采 用 DRAW_ 
RICH_KEYPOINTS 标 志 以 便 显示 相关 的 尺度 因子 : 


// 画 出 关键 点 ， 包 括 尺 度 和 方向 信息 








cv::drawKeypoints (image， // 原始 图 像 
keypoints, // 关键 点 的 向 量 
featureImage, // 结果 图 像 
cv::Scalar (255,255,255), // 点 的 颜色 
cv::DrawMatchesFlags::DRAW_RICH_KEYPOINTS); // 标 志 





包含 被 检测 特征 的 结果 图 像 如 下 : 
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上 一 节 解 释 过 ， 使 用 DRAwW_RICH_KEYPOINTS 标 志 可 得 到 关键 点 的 圆 ， 并 且 圆 的 尺寸 与 每 个 
特征 计算 得 到 的 尺度 成 正比 。 为 了 使 特征 具有 旋转 不 变性 ，SURF 还 让 每 个 特征 关联 了 一 个 方向 。 
方向 由 每 个 圆 内 的 一 条 辐射 线 表 示 。 


如 果 对 同一 个 物体 ， 用 不 同 的 尺度 拍 另 一 张 照片 ， 特 征 检测 的 结果 如 下 : 
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仔细 观察 两 幅 图 像 中 的 关键 点 , 可 以 发 现 圆 的 大 小 变化 与 尺度 的 变化 总 是 成 正比 的 。 举 个 例 
子 ， 通 过 观察 教堂 右上 角 窗 口 的 底部 ， 可 以 看 出 两 幅 图 像 都 在 这 个 位 置 检 测 到 了 SURF 特 征 ， 并 
且 对 应 的 圆 (大 小 不 同 ) 包含 了 同样 的 视觉 元 素 。 当 然 并 不 是 全 部 特征 都 如 此 , 但 是 正如 下 一 章 
将 揭示 的 ， 此 时 的 重复 率 已 经 高 到 可 以 使 两 幅 图 像 很 好 地 匹配 。 


























8.4.2 ”实现 原理 


在 第 6 章 我 们 学 过 , 可 以 用 高 斯 滤波 器 估算 图 像 的 导数 。 高 斯 滤波 器 用 c 参 数 定义 内 核 的 口径 
( 尺 才 )。 我 们 知道 ， 这 个 co 参 数 对 应 了 用 于 构建 滤波 器 的 高 斯 函数 的 变化 幅度 ， 它 还 隐 式 地 定义 
了 计算 导数 的 范围 。 事 实 上 ， 滤 波 器 的 c 值 越 大 ， 图 像 的 细节 越 平 滑 。 因 此 它 可 以 在 更 粗糙 的 范 
围 内 操作 。 


如 果 在 不 同 的 尺度 内 ,用 高 斯 滤波 器 计算 指定 像素 的 拉 普 拉 斯 算 子 , 会 得 到 不 同 的 数值 。 观 
察 滤波 带 对 不 同 尺度 因子 的 响应 规律 ， 可 以 得 到 一 条 具有 最 大 o 值 的 曲线 。 对 于 以 不 同 尺度 拍摄 
的 两 幅 图 像 的 同一 个 物体 ， 对 应 的 两 个 o 值 的 比率 等 于 拍摄 两 幅 图 像 的 尺度 的 比率 。 这 一 重要 观 
察 是 尺度 不 变 特征 提取 过 程 的 核心 。 也 就 是 说 , 为 了 检测 尺度 不 变 特征 , 需要 在 图 像 空间 (图像 
中 ) 和 尺度 空间 (通过 在 不 同 尺度 下 应 用 导数 滤波 絮 得 到 ) 分 别 计算 局 部 最 大 值 。 


SURF 用 以 下 方法 实现 了 这 个 理论 。 首 先 ， 为 了 检测 特征 而 对 每 个 像素 计算 Hessian 和 矩阵 。 该 
和 矩阵 衡量 了 一 个 函数 的 局 部 曲率 ， 定 义 如 下 : 
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根据 矩阵 的 行列 式 值 ,可 以 得 到 曲率 的 强度 。 该 方法 把 角 点 定义 为 局 部 高 曲率 ( 即 在 多 个 方 
向 上 的 变化 幅度 都 很 高 ) 的 像素 点 。 这 个 矩阵 由 二 阶 导数 构成 ， 因 此 可 以 用 高 斯 内 核 的 拉 普 拉 斯 
算 子 , 在 不 同 的 尺度 ( 例如 c ) 下 计算 得 到 。 这 样 Hessian 和 矩阵 就 成 了 三 个 变量 的 函数 , 即 有 (x,y, oa。 
如 果 在 普通 空间 和 尺度 空间 ( 即 需 要 执行 3 x 3x 3 次 非 最 大 值 抑制 )，Hessian 和 矩阵 的 行列 式 值 达 到 
了 局 部 最 大 值 ,那么 就 认为 这 是 一 个 尺度 不 变 特征 ,注意 ,为 了 确认 点 的 有 效 性 ,必须 在 cv: : SURF 
构造 函数 的 第 一 个 参数 中 指定 最 小 行列 式 值 。 


但 是 在 不 同 尺 度 下 计算 全 部 导数 值 ， 计 算 量 非常 大 。SURF 算 法 的 目标 是 使 这 个 过 程 尽 可 能 
地 高 效 。 具 体 做 法 是 使 用 近似 的 高 斯 内 核 ， 只 附带 几 个 整数 。 它 们 的 结构 如 下 : 














































































































左边 的 内 核 用 于 估算 混合 二 阶 导数 , 右边 的 内 核 用 于 佑 算 垂 直方 向 的 二 阶 导数 。 右 边 的 内 核 
旋转 后 ， 就 可 佑 算 水 平方 向 的 二 阶 导数 。 最 小 的 内 核 太 寸 为 9 x 9 像素 ， 对 应 c = 1.2。 要 在 尺度 
空间 中 使 用 ， 需 要 连续 地 应 用 一 系列 内 核 , 并 且 内 核 的 尺寸 逐个 增 大 。 可 以 在 SURF 类 的 附加 参 
数 中 指定 滤波 右 的 准确 数量 。 默 认 使 用 12 个 不 同 尺寸 的 内 核 (最 大 尺寸 为 99 x 99 )。 该 算法 采用 
积分 图 像 ， 这 是 为 了 确保 只 用 三 个 加 法 运算 就 可 以 计算 每 个 滤波 器 分 支 的 累加 值 ， 与 滤波 器 尺 
寸 无 关 。 


一 旦 找到 局 部 最 大 值 , 就 可 以 使 用 尺度 空间 和 图 像 空 间 的 插值 法 , 获得 被 检测 兴趣 点 的 精确 
位 置 。 得 到 的 一 批 位 于 子 像素 级 精度 的 特征 点 ， 并 且 每 个 特征 点 关联 了 一 个 尺度 值 。 
























































8.4.3 扩展 阅读 


SURF 算 法 是 SIFT 算 法 的 加 速 版 ， 而 SIFT (尺度 不 变 特 征 转换 ，Scale-Invariant Feature 
Transform ) 是 另 一 种 著名 的 尺度 不 变 特 征 检测 法 。 























SIFT 特 征 检 测算 法 


SIFT 检 测 特征 时 ， 也 采用 图 像 空间 和 尺度 空间 的 局 部 最 大 值 ， 但 它 使 用 拉 普 拉 斯 滤波 器 响 
应 ， 而 不 是 Hessian 行 列 式 值 。 这 个 拉 普 拉 斯 算 子 是 利用 高 斯 滤波 器 的 差 值 ， 在 不 同 尺度 ( 即 逐 
步 加 大 o 值 ) 下 计算 得 到 的 ， 详 见 第 6 章 。 为 了 提高 性 能 ， 每 次 c 值 增加 一 倍 ， 图 像 的 尺寸 就 缩小 
一 半 。 每 个 金字 塔 级 别 代表 一 个 入 度 ( octave )， 每 个 尺度 是 一 图 层 (layer )。 一 个 八 度 通常 包含 
三 个 图 层 。 


下 图 表示 两 个 八 度 的 金字 塔 ， 其 中 第 一 个 八 度 的 四 个 高 斯 滤波 图 像 产生 三 个 DoG 图 层 : 
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OpenCV 中 有 一 个 用 于 检测 这 些 特 征 的 类 ， 它 的 调用 方法 与 SURF 类 似 : 
// 构造 SIFT 特 征 检测 器 对 象 


detector = new cv::SIFT(); 
// 检测 SIFT 特 征 


detector->detect (image, keypoints); 


这 里 构造 函数 的 参数 都 用 了 缺 省 值 ， 但 是 也 可 以 指定 所 需 的 SIFT 点 数量 ( 保留 强度 最 大 的 
点 )、 每 个 八 度 包含 的 图 层 数 以 及 o 的 初始 值 。 得 到 的 结果 与 SURF 类 似 : 




















然而 ， 由 于 SIFT 基 于 浮 点 内 核 计算 特征 点 ， 因 此 通常 认为 ，SIFT 算 法 检测 的 特征 在 空间 和 


尺度 上 定位 更 加 精确 。 基 于 同样 的 原因 ， 它 的 计算 效率 也 更 低 ， 尽 管 相 对 效率 取决 于 具体 的 实 
现 方 法 。 





最 后 提醒 一 下 ,也许 你 已 经 注意 到 ,SURF 和 SIFT 类 被 放 在 非 免 费 的 OpenCV 软 件 包 中 。 因 为 
这 几 种 算法 受 专利 保护 ， 在 商业 程序 中 使 用 会 受到 许可 协议 的 限制 。 


8.4.4 参阅 





口 6.5 方 详细 介绍 了 拉 普 拉 斯 -高 斯 算 子 和 不 同 高 斯 差 的 应 用 。 
口 9.3 节 解释 了 如 何在 稳健 图 像 匹配 中 使 用 尺度 不 变 特征 


io 
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口 H.Bay，A. Ess、T. Tuytelaars 和 L. Van Gool 发 表 在 Computer Vision and Image Understanding 
2008 年 第 110 卷 第 3 期 第 346 页 至 第 359 页 的 “SURF: Speeded Up Robust Features” 描 述 了 
SURF 算 法 。 

口 D. Lowe 发 表 在 1nternational Journal of Computer Vision 2004 年 第 60 卷 第 2 期 第 91 页 至 第 110 
页 的 “Distinctive Image Features from Scale Invariant Features” 描 述 了 SIFT 算 法 。 


8.5 多 尺度 FAST 特征 的 检测 


FAST 是 一 种 快速 检测 图 像 关 键 点 的 方法 。 使 用 SURF 和 SIFT 算 法 时 , 侧重 点 在 于 设计 尺度 不 
变 特征 。 后 来 引入 了 新 的 兴趣 点 检测 方法 ， 既 能 快速 检测 ， 又 不 随 尺度 改变 而 变化 。 本 节 介 绍 
BRISK ( Binary Robust Invariant Scalable Keypoints ， 二 元 稳健 恒定 可 扩展 关键 点 ) 检测 法 。 它 基 
于 上 节 介 绍 的 FAST 特 征 检测 法 。 本 节 最 后 还 将 讨论 另 一 种 检测 方法 , 称 为 ORB( Oriented FASTand 
Rotated BRIEF ， 定 向 FAST 和 旋转 BRIEF )。 在 需要 快速 可 靠 地 匹配 图 像 时 ,使 用 这 两 种 特征 点 检 
测 法 是 非常 优秀 的 解决 方案 。 在 结合 相关 的 二 值 描述 子 使 用 时 ， 它 们 的 性 能 特别 高 ， 在 第 9 章 将 
详细 讨论 。 




















8.5.1 如 何 实现 


依据 上 节 的 内 容 ，BRISK 算 法 使 用 抽象 类 cv: :FeatureDetector 检 测 关键 点 。 首 先 创 建 该 
检测 器 的 实例 ， 然 后 调用 aetect 方 法 : 

// 构造 BRISK 特 征 检测 器 对 象 

detector = new cv::BRISK(); 


// 检测 BRISK 特 征 


detector->detect (image, keypoints); 


下 图 显示 了 在 多 个 尺度 下 检测 到 的 关键 点 : 
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8.5.2 ”实现 原理 


BRISK 不 仅 是 一 个 特征 点 检测 器 ,， 它 还 包含 了 描述 每 个 被 检测 关键 点 的 邻 域 的 过 程 。 第 二 部 
分 的 内 容 就 是 下 一 章 的 主题 。 我 们 将 讨论 如 何 用 BRISK 算 法 在 多 个 尺度 下 快速 地 检测 关键 点 。 

为 了 在 不 同 尺 度 下 检测 兴趣 点 , 该 算法 首先 通过 两 个 下 采样 过 程 构建 一 个 图 像 金字 塔 。 第 
个 过 程 从 原始 图 像 尺 寸 开始 ,然后 每 一 图 层 ( 八 度 ) 减少 一 半 。 第 二 个 过 程 首 先 将 原始 图 像 的 尺 


寸 除 以 1.5， 得 到 第 一 个 图 像 ， 然 后 在 这 个 图 像 的 基础 上， 每 一 层 减少 一 半 ， 两 个 过 程 产生 的 图 
层 交 替 在 一 起。 


















































然后 在 该 金字 塔 的 所 有 图 像 上 应 用 FAST 特 征 检测 器 。 提 取 关 键 点 的 条 件 与 SIFT 算 法 类 似 。 
首先 ， 一 个 像素 与 八 个 相 邻 像素 之 一 比较 强度 值 ， 只 有 是 局 部 最 大 值 的 像素 才 可 能 称 为 关键 点 。 
这 个 条 件 满足 后 , 这 个 点 与 上 下 两 层 的 相 邻 像素 比较 评分 ; 如 果 它 的 评分 在 尺度 上 也 更 高 ,那么 
就 认为 它 是 一 个 兴趣 点 。BRISK 算 法 的 关键 在 于 : 金字 塔 的 各 个 图 层 具有 不 同 的 分 辨 率 。 为 了 精 
确定 位 每 个 关键 点 ,算法 需要 在 尺度 和 空间 两 个 方面 进行 插值 。 插 值 基于 FAST 关 键 点 评分 。 在 
空间 方面 ， 在 3 x 3 的 邻 域 上 进行 插值 。 在 尺度 方面 ,计算 依据 是 要 适合 一 个 一 维 抛物 线 ， 该 抛物 
线 在 尺度 坐标 轴 上 , 并 穿 过 当前 点 和 上 下 两 层 的 两 个 相 邻 的 局 部 关键 点 ; 这 个 关键 点 在 尺度 上 的 
位 置 ， 见 前 面 的 图 片 。 这 样 做 的 结果 是 ， 即 使 在 不 连续 的 图 像 尺 度 上 执行 FAST 关 键 点 检测 ， 最 
后 检测 到 每 个 关键 点 对 应 的 尺度 都 是 连续 的 值 。 













































































cv: :BRISK 类 有 两 个 可 选 参数 ， 用 于 控制 关键 点 的 检测 。 第 
闵 值 ， 第 二 个 参数 是 图 像 金 字 塔 中 生成 的 八 度 的 数量 : 

// 构造 另 一 个 BRISK 特 征 检 测 器 对 象 

detector = new cv::BRISK( 


20， // 判断 是 否 为 ERAST 点 的 阀 值 
5); // 八 度 的 数量 


一 个 参数 是 判断 FAST 关 键 点 的 








8.5.3 扩展 阅读 


在 OpenCV 中 ，BRISK 并 不 是 唯一 的 多 扩 度 快速 检测 器 。ORB 特 征 检测 需 也 能 进行 快速 关键 
点 检测 。 
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ORB 特 征 检测 算法 


ORB 代 表 定 向 FAST 和 旋转 BRIEF ( Oriented FAST and Rotated BRIEF ), 这 个 缩写 的 第 一 层 意 
思 表 示 关 键 点 检测 , 第 二 层 意 思 表示 ORB 算 法 提供 的 描述 子 。 这 里 我 们 关注 检测 方法 ,下 一 章 将 
介绍 描述 子 。 


跟 BRISK 一 样 ，ORB 首 先 创建 一 个 图 像 金 字 塔 。 它 由 一 批 图 层 组 成 , 每 个 图 层 都 是 用 固定 的 缩 
放 因 子 对 前 一 个 图 层 下 采样 得 到 ( 典型 情况 是 用 8 个 尺度 ， 缩 放 因 子 为 1.2。 这 些 参数 可 在 cv: :ORB 
函数 中 设置 )。 在 具有 关键 点 评分 的 位 置 ， 接 受 NN 个 强度 最 大 的 关键 点 。 其 中 关键 点 评分 用 的 是 
8.2 节 定义 的 Harris 角 点 强度 衡量 方法 ( 这 个 方法 的 作者 发 现 Harris 评 分 是 更 可 靠 的 衡量 方法 )。 


ORB 检 测 需 的 原理 基于 一 个 现象 , 即 每 个 被 检测 的 兴趣 点 总 是 关联 了 一 个 方向 。 下 一 章 我 们 
将 看 到 ， 这 个 信息 可 用 于 校准 不 同 图 像 中 检测 的 关键 点 描述 子 。 在 7.6 节 ， 我 们 介绍 了 图 像 轮 廊 
和 矩 的 概念 , 并 且 特 别 展 示 了 如 何 用 前 三 个 轮廓 矩 计算 区 域 的 重心 。ORB 算 法 建议 使 用 关键 点 周围 
的 圆 形 邻 域 的 重心 的 方向 。 因 为 根据 定义 ，FAST 关 键 点 肯定 有 一 个 偏离 中 心 点 的 重心 ， 中 心 点 
与 重心 的 连 线 的 角度 总 是 非常 明确 的 。 


ORB 特 征 的 检测 方法 如 下 : 


// 构造 ORB 特 征 检测 器 对 象 


detector = new cv::ORB 






































(200，// 关键 点 的 总 数 
1.2，// 图 层 之 间 的 缩放 因子 
8); // 金字 塔 的 图 层 数 量 





// 检测 ORB 特 征 
detector->detect (image, keypoints); 


调用 的 结果 如 下 : 























可 以 发 现 , 因为 金字 塔 中 每 个 图 层 的 关键 点 是 独立 检测 的 , 检测 器 会 在 不 同 尺度 中 重复 检测 
同一 个 特征 点 。 
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8.5.4 参阅 





口 S. Leutenegger 、M. Chli 和 








口 9.4 节 将 解释 如 何 用 简单 的 二 元 描述 子 快速 稳健 地 匹配 这 些 特 征 。 


R. Y. Siegwart 发 表 在 IEEE International Conference on Computer 


Vision 2011 年 第 2448 页 至 第 2555 页 的 “BRISK: Binary Robust Invariant Scalable Keypoint” 


描述 了 BRISK 特 征 算法 。 


口 E. Rublee 、V. Rabaud、K. Konolige 和 G. Bradski 发 表 在 IEEE International Conference on 
Computer Vision 2011 年 第 2564 页 至 第 2571 页 的 “ORB: an efficient alternative to SIFT or 
SURF” 描 述 了 ORB 特 征 算法 。 





摘 述 和 匹配 兴趣 点 








本 章 包 括 以 下 内 容 : 

口 局 部 模板 匹配 ; 

D 描述 局 部 强度 值 模式 ; 
口 用 二 值 特征 描述 关键 点 。 





9.1 简介 








上 一 章 我 们 学 习 了 如 何 检测 图 像 中 的 特殊 点 集 , 以 便 进行 后 续 的 局 部 图 像 分 析 。 这些 关 键 点 
都 具有 足够 的 独特 性 ， 如果 一 个 物体 在 一 个 图 像 中 被 检测 到 关键 点 , 那么 同一 个 物体 在 其 他 图 像 
中 也 会 检测 到 同一 个 关键 点 。 我 们 还 描述 了 几 个 更 复杂 的 兴趣 点 检测 需 , 它们 可 以 在 关键 点 上 设 
置 有 代表 性 的 缩放 因子 和 (或 ) 方向 。 我 们 将 在 本 节 中 看 到 ， 这 个 额外 的 信息 可 用 于 规范 不 同 视 
角 的 场景 展示 。 


为 了 进行 基于 兴趣 点 的 图 像 分 析 , 我 们 需要 构建 能 够 唯一 地 描述 关键 点 的 展现 方式 。 本 章 将 
探讨 从 兴趣 点 提取 描述 子 的 各 种 方法 。 这 些 描 述 子 通常 是 二 值 类 型 、 整 数 型 或 浮 点 数 型 组 成 的 一 
维 或 二 维 向 量 , 描述 了 一 个 关键 点 和 它 的 邻 域 。 好 的 描述 子 要 具有 足够 的 独特 性 ,能 唯一 地 表示 
图 像 中 每 个 关键 点 。 它 还 要 有 足够 的 鲁 棒 性 , 在 照度 变化 或 视角 变动 时 仍 能 较 好 地 体现 同一 批 点 
集 。 理 想 的 描述 子 还 要 简洁 ,便于 处 理 。 


图 像 匹 配 是 关键 点 的 常用 功能 之 一 。 它 的 作用 包括 关联 同一 场景 的 两 个 图 像 、 检 测 图 像 中 事 
物 的 发 生地 点 ， 等 等 。 本 章 我 们 来 学 习 几 种 基本 的 匹配 策略 ， 下 一 章 将 更 深入 地 讨论 。 

















































































































9.2 局 部 模板 匹配 


通过 特征 点 匹配 ， 可 以 将 一 幅 图 像 的 点 集 和 另 一 幅 图 像 (或 一 批 图像 ) 的 点 集 关联 起 来 。 如 
果 两 个 点 集 对 应 着 现实 中 的 同一 个 场景 元 素 ( 或 物体 点 )， 它 们 就 应 该 匹配 。 














192 第 9 章 描述 和 匹配 兴趣 点 





要 判断 两 个 关键 点 的 相似 度 , 仅 赁 单个 像素 显然 是 不 够 的 。 因此 需要 在 匹配 过 程 中 考虑 每 个 
关键 点 周围 的 图 像 块 。 如 果 两 个 图 像 块 对 应 着 同一 个 场景 元 素 , 那么 它们 的 像素 值 应 该 会 比较 相 
似 。 本 节 介 绍 的 方案 是 对 图 像 块 中 的 像素 进行 逐个 比较 。 这 可 能 是 最 简单 的 特征 点 匹配 方法 了 ， 
但 是 我 们 将 会 看 到 ， 这 种 方法 并 不 是 最 可 靠 的 。 不 过 在 某 些 情况 下 ， 它 也 能 得 到 不 错 的 结 












































9.2.1 如 何 实现 


最 常见 的 图 像 块 是 边 长 为 奇数 的 正方 形 , 关键 点 位 置 就 是 正方 形 的 中 心 。 可 通过 比较 块 内 像 
素 的 强度 值 , 来 衡量 两 个 正方 形 图 像 块 的 相似 度 。 常 见 的 方案 是 采用 简单 的 差 的 平方 和 (Sum of 
Squared Differences，SSD ) 算法 。 下 面 是 特征 匹配 策略 的 具体 步骤。 首先 要 检测 每 个 图 像 的 关键 
点 。 这 里 我 们 使 用 FAST 检 测 器 : 


// 定义 关键 点 向 量 

std: :vector<cv: :KeyPoint> keypointsil; 
std: :vector<cv: :KeyPoint> keypoints2; 
// 定义 特征 点 检测 器 
Cv::FastFeatureDetector fastDet (80); 
// 检测 特征 点 
fastDet.detect (imagel, keypoints1); 
fastDet .detect (image2, keypoints2); 


然后 定义 一 个 11x11 的 和 矩形， 表示 每 个 关键 点 周围 的 图 像 块 ; 


// 定义 正方 形 的 邻 域 

const int nsize(11); // 邻 域 的 尺寸 

cvV::Rect neighborhood(0, 0, nsize, nsize); // 11x11 
cv::Mat patch]l; 

CvirMat Patonzs 


一 幅 图 像 的 关键 点 与 男 一 幅 图 像 的 全 部 关键 点 进行 比较 。 对 于 第 一 幅 图 像 的 每 个 关键 点 , 找 
出 在 第 二 幅 图 像 中 与 它 最 相似 的 图 像 块 。 这 个 过 程 用 两 个 嵌 套 循环 实现 ， 代 码 如 下 : 
// 针对 第 一 幅 图 像 中 的 每 个 关键 点 ， 在 第 二 幅 图 像 中 找 出 最 匹配 的 


cv::Mat result; 
std: :vector<cv: :DMatch> matches; 
















































































// 针对 图 像 一 的 全 部 关键 点 


for (int i=0; i<keypointsl.size(); i++) { 





// 定义 图 像 块 
neighborhood.x 
neighborhood.y 


= keypointsl[i] .pt.x-nsize/2; 
= keypointsl[i] .pt.y-nsize/2; 
// 如 果 邻 域 超 出 图 像 范围 ， 就 继续 处 理 下 一 个 点 
if (neighborhood.x<0 || neighborhood.y<0 || 
neighborhood.x+nsize >= imagel.cols || 
neighborhood.y+nsize >= imagel .rows) 
continue; 
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/ /图像 一 的 块 
patchl = imagel (neighborhood); 


// 复位 最 匹配 的 值 
cv::DMatch bestMatch; 


// 针对 图 像 二 的 全 部 关键 点 
for (int j=0; j<keypoints2.size(); j++) { 





// 定义 图 像 块 
neighborhood.x = keypoints2[j] .pt.x-nsize/2; 
neighborhood.y = keypoints2[j] .pt.y-nsize/2; 





// 如 果 令 域 超 出 图 像 范围 ， 就 继续 处 理 下 一 个 点 
if (neighborhood.x<0 || neighborhood.y<0 || 
neighborhood.x + nsize >= image2.cols || 
neighborhood.y + nsize >= image2 .rows) 
continue; 





// 图 像 二 的 块 
patch2 = image2 (neighborhood); 


// 匹配 两 个 图 像 块 
cv::matchTemplate (patch],patch2,result, 
CV_TM_SQODIEFEF_NORMED ) ; 





// 检查 是 否 最 佳 的 匹配 
if (result.at<float>(0,0) < bestMatch.distance) { 


bestMatch.distance= result.at<float>(0,0); 
bestMatch.aqueryIdx= i; 
bestMatch.trainIdx= j; 
} 
} 


// 添加 最 佳 匹配 
matches.push_ back (bestMatch); 
} 


注意 ， 这 里 用 了 cv: :matchTemplate 函 数 来 计算 图 像 块 的 相似 度 〔( 下 一 节 将 详细 介绍 这 个 
函数 )。 找 到 一 个 可 能 的 匹配 项 后 ， 用 一 个 cv: :DMatch 对 象 来 表示 。 该 对 象 存储 了 两 个 被 匹配 9 
关键 点 的 序号 和 相似 度 。 


两 个 图 像 块 越 相似 , 它们 对 应 着 同一 个 场景 点 的 可 能 性 就 越 大 。 因 此 需要 根据 相似 度 对 匹配 
结果 进行 排序 : 


// 提取 25 个 最 佳 匹配 项 

std: :nth element (matches .begin()， 
matches.begin()+25,matches.end()); 

matches.erase (matches.begin()+25,matches.end()); 
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潍 





你 可 以 用 一 个 相似 度 闪 值 筛选 这 些 匹 配 项 ， 并 得 出 筛选 结果 。 这 里 我 们 保留 相似 度 最 大 的 N 
个 匹配 项 〈 为 了 方便 显示 结果 ， 选 用 V= 25 )。 

有 趣 的 是 ，OpenCV 本 身 就 带 有 一 个 能 显示 匹配 结果 的 函数 ， 它 把 两 个 图 像 拼接 起 来 ， 然 后 
用 线条 连接 每 个 对 应 的 点 。 函 数 的 用 法 如 下 : 


// 画 出 匹配 结果 
cV: :Mat matchImage; 








cv::drawMatches (imagel,keypointsi1, // 图 像 一 
image2, keypoints2, // 图 像 二 
matches, // 匹配 项 的 向 量 
cv::Scalar (255,255,255), // 线条 颜色 
cv::Scalar(255,255,255)); // 点 的 颜色 
得 到 的 结果 如 下 : 
天 | Matches 二 名 

















9.2.2 ”实现 原理 


这 样 的 结果 显然 并 不 理想 ,但 是 通过 观察 这 些 点 集 的 匹配 效果 , 也 能 发 现 一 些 成 功 的 匹配 项 。 
还 可 以 发 现 建筑 物 的 重复 结构 造成 了 一 些 混 淆 。 男 外 , 我 们 试图 为 左 侧 图 像 的 所 有 点 集 , 在 右 侧 
找到 与 它 匹配 的 点 集 , 因此 出 现 了 右 侧 点 集 与 多 个 左 侧 点 集 匹 配 的 情况 。 有 一 些 方法 可 以 修正 这 
种 不 对 称 的 匹配 项 ， 例 如 对 右 侧 点 集 只 保留 相似 度 最 大 的 匹配 项 。 


这 里 我 们 用 一 个 简单 的 标准 来 比较 图 像 块 ， 即 指定 cv_TM_sQDIFF 标 志 ， 逐 个 像素 地 计算 差 
值 的 平方 和 。 在 比较 图 像 的 像素 (x, y) 生 的 像素 (x',y') 时 ， 用 下 面 的 公式 衡量 相似 度 : 





DDxtiyt)) -D(x tiy'+))) 
i,j 


这 些 (Gi, 让 点 的 累加 值 ， 就 是 以 每 个 点 为 中 心 的 整个 正方 形 模板 的 偏 移 值 。 如 果 两 个 图 像 块 比 
较 相 似 , 它们 的 相 邻 像素 之 间 的 差距 就 比较 小 ， 因 此 累加 值 最 小 的 块 就 是 最 匹配 的 图 像 块 。 该 功 
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能 通过 匹配 函数 的 主 循环 实现 , 即 针对 一 个 图 像 的 每 个 关键 点 ,在 男 一 个 图 像 中 找 出 差 值 平方 和 
最 小 的 关键 点 。 也 可 以 设置 一 个 阅 值 ,排除 掉 差 值 平方 和 超过 该 阔 值 的 匹配 项 。 在 本 例 中 只 是 将 
结果 按照 相似 度 从 大 到 小 进行 排序 。 


这 个 例子 用 11 x 11 的 方块 进行 匹配 。 采 用 更 大 的 邻 域 会 使 图 像 块 更 具 独 特性 , 但 是 也 会 导致 
对 局 部 的 场景 变化 更 加 敏感 。 


只 要 两 幅 图 像 所 表现 场景 的 视角 和 拍摄 条 件 都 比较 相似 , 简单 地 用 差 值 平方 和 来 比较 两 个 图 
像 窗 口 也 能 得 到 较 好 的 效果 。 实际 上 只 要 光照 有 变化 , 就 会 增强 或 降低 图 像 块 中 所 有 像素 的 强度 
值 ， 导致 差 值 平方 发 生 很 大 的 变化 。 为 了 减少 光照 对 匹配 结果 的 影响 , 还 可 采用 衡量 图 像 窗 口 相 
似 度 的 其 他 公式 。OpenCV 提 供 了 很 多 这 样 的 公式 ， 其 中 归 一 化 的 差 值 平方 和 (用 cv_T™M_ 


SQDIFF_NORMED 标 志 ) 非常 实用 : 
































OTEtiyt)) -L(x tiy'+))) 
i,j 

2 
i,j i,j 


其 他 相似 度 衡量 方法 基于 信号 处 理 理论 中 的 相关 性 ， 定 义 如 下 ( 用 cv_TM_cCCORR 标 志 ): 








2 Ttip+t I L(x +tiy't+)) 
i 


如 果 两 个 图 像 块 非常 相似 ， 这 个 值 将 达到 最 大 。 


识别 出 的 匹配 项 存储 在 cv: :DMatch 类 型 的 向 量 中 。 本 质 上 cv: :DMatch 数 据 结构 的 内 部 包 
含 两 个 索引 , 第 一 个 索引 指向 第 一 个 关键 点 向 量 中 的 元 素 , 第 二 个 索引 指向 第 二 个 关键 点 向 量 中 
匹配 上 的 特征 点 。 它 还 包含 一 个 数值 ， 表 示 两 个 已 匹配 的 描述 子 之 间 的 差距 。 运 算 符 < 可 用 于 比 
较 两 个 cv: :DMatch 实 例 ， 它 的 定义 中 用 到 了 这 个 差距 值 。 

为 了 使 结果 更 具 可 读 性 , 在 绘制 匹配 项 时 要 限制 线条 的 数量 。 因 此 , 我 们 只 显示 了 差距 最 小 
的 25 个 匹配 项 。 要 想 实 现 这 个 功能 ， 需 要 调用 函数 sta: :nth_element。 这 个 函数 将 排序 后 的 
第 NN 个 元 素 放 在 第 N 个 位 置 ， 比 这 个 元 素 小 的 元 素 放 在 它 的 前 面 ,然后 把 向 量 中 其 余 的 元 素 清 除 。 





























9.2.3 扩展 阅读 


在 这 个 特征 点 检测 方法 中 ， 也 数 cv: :matchTemplate 是 关键 。 这 里 我 们 采用 非常 特殊 的 方 
式 调用 它 ， 即 用 它 来 比较 两 个 图 像 块 。 但 是 这 个 函数 本 身 是 很 通用 的 。 


模板 匹配 
在 图 像 分 析 中 , 一 个 常见 的 任务 是 检测 图 像 中 是 否 存 在 特定 的 图 案 或 物体 。 实 现 方法 是 把 包 
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含 该 物体 的 小 图 像 作为 模板 , 然后 在 指定 图 像 上 搜索 与 模板 相似 的 部 分 。 搜 索 的 范围 通常 仅 限于 
可 能 发 现 该 物体 的 区 域 。 在 这 个 区 域 上 滑动 模板 ， 并 在 每 个 像素 的 位 置 计算 相似 度 。 执 行 这 个 操 
作 的 函数 是 cv: :matchTemplate。 函 数 的 输入 对 象 是 一 个 小 图 像 模 板 和 一 个 被 搜索 的 图 像 。 结 
果 是 一 个 浮 点 数 型 的 cv: :mat 函数， 表示 每 个 像素 位 置 上 的 相似 度 。 假 设 模板 尺寸 为 M x N， 
像 尺寸 为 不 x 瓦 ， 那 么 结果 矩阵 的 尺寸 是 ( 矿 - N+1) x (8H-N+1)。 通 常 我 们 只 关注 相似 度 最 高 的 
位 置 。 典 型 的 模板 匹配 代码 如 下 (假设 目标 变量 就 是 这 个 模板 ): 

// 定义 搜索 区 域 

cv::Mat roi (image2, 


// 这 里 用 图 像 的 上 半 部 分 


cv::Rect (0,0,image2.cols,image2 .rows/2)); 





























// 进行 模板 匹配 
cv::matchTemplatel 
hae i // 搜索 区 域 
target，// 模板 
result，// 结果 
CV_TM_SQDIFF); // 相似 度 


// 找到 最 相似 的 位 置 

double minVval, maxVal; 

Cv::Point minpt, maxpt; 

cv: :minMaxLoc (result, &minVal, &maxVal, &minpt, &maxpt); 


// 在 相似 度 最 高 的 位 置 绘制 矩形 

// 本 例 中 为 minPt 

cv::rectangle (roi, 
Cv: :Rect (minPt .x, minpt.y, target.cols , target.rows), 
2 


要 知道 这 个 操作 是 非常 耗 时 的 ， 因 此 应 该 限制 搜索 的 区 域 ， 并且 模板 的 像素 要 少 。 








9.2.4 ”参阅 


口 下 一 节 介 绍 本 节 中 实现 匹配 策略 的 cv: :BFMatcher 类 。 


9.3 描述 局 部 强度 值 模式 


第 8 章 讨论 的 SURF 和 SIFT 关 键 点 检测 算法 ,定义 了 每 个 被 检测 特征 的 位 置 、 方 向 和 斥 度 。 在 
定义 分 析 特 征 点 的 窗口 大 小 时 , 要 用 到 尺度 因子 的 信息 。 因 此 不 管 该 特征 所 属 物体 的 拍摄 比例 是 
多 大 ,定义 的 邻 域 都 将 包含 同样 的 视觉 信息 。 本 节 将 介绍 如 何 用 特征 描述 子 来 描述 兴趣 点 的 邻 域 。 
在 图 像 分 析 中 ,可 以 用 邻 域 包含 的 视觉 信息 来 标识 每 个 特征 点 ， 以 便 区 分 各 个 特征 点 。 特 征 描述 
子 通 常 是 一 个 N 维 的 向 量 ， 在 光照 变化 和 拍摄 角度 微小 扭曲 时 ， 它 描述 特征 点 的 方式 不 会 发 生变 
化 。 通常 可 以 用 简单 的 差 值 矩阵 来 比较 描述 子 , 例如 用 欧 几 里 德 距离 。 在 特征 匹配 应 用 中 ,特征 
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描述 子 是 一 种 强大 的 工具 。 


9.3.1 如 何 实现 


OpenCV 2 提供 了 一 个 通用 的 接口 ， 用 于 批量 计算 关键 点 的 描述 子 。 该 接口 名 为 
cv: :DescriptorExtractor, 它 的 使 用 方法 与 上 一 章 使 用 cv: :FeatureDetector 接 口 的 方法 
类 似 。 大 多 数 基于 特征 的 方法 都 包含 一 个 检测 器 和 一 个 描述 子 组 件 ; cv: : SURF 和 cv: :SITFT 等 类 
同时 实现 了 这 两 个 接口 。 这 意味 着 在 检测 和 描述 关键 点 时 只 需要 创建 一 个 对 象 。 匹 配 两 个 图 像 的 
方法 如 下 : 

// 定义 特征 检测 器 

// 构造 SURE 特 征 检 测 器 对 象 


cV: :PELI<CV: :EReatureDetector> detector = new cv::SURF(1500.); 























// 关键 点 检测 

// 检测 SURF 特 征 
detector->detect (imagel, keypointsl1); 
detector->detect (image2, keypoints2); 


// SURF 同 时 包含 了 检测 器 和 描述 子 提 取 器 


cvV: :Ptr<cv::DescriptorExtractor> descriptor = detector; 


// 提取 描述 子 

cv::Mat qescriptors1: 

cv::Mat descriptors2; 
descriptor->compute (imagel, keypointsl,descriptorsl1); 
descriptor->compute (image2, keypoints2,descriptors2); 


对 于 SIFT， 只 需 改 成 创建 cv: :SIFT() 对象。 函数 返回 一 个 矩阵 ( 即 cv: :Mat 实 例 )， 和 矩阵 
的 行 数 等 于 关键 点 向 量 的 元 素 个 数 。 每 行 是 一 个 N 维 的 描述 子 向 量 。 对 于 SURF 描 述 子 , 它 的 默认 
尺寸 是 64; 而 对 于 SIFT， 默 认 尺 寸 是 128。 这 个 向 量 用 于 区 分 特征 点 周围 的 强度 值 图 案 。 两 个 特 
征 点 越 相 似 ， 它 们 的 描述 子 向 量 就 会 越 接近 。 

现在 可 以 用 这 些 描述 子 来 进行 关键 点 匹配 了 。 与 上 节 完 全 一 样 , 将 第 一 幅 图 像 的 每 个 特征 描 
述 子 向 量 与 第 二 幅 图 像 的 全 部 特征 描述 子 进 行 比较 。 把 相似 度 最 高 的 一 对 〈 即 两 个 描述 子 向 量 之 
间 的 距离 最 短 ) 保留 下 来 ， 作 为 最 佳 匹 配 项 。 对 第 一 幅 图 像 的 每 个 特征 ,重复 上 述 步 又 。 这 个 过 
程 已 经 在 OpenCV 的 cv: :BFMatcher 类 中 实现 , 使 用 很 方便 ,因此 我 们 没 必要 重新 实现 前 面 构建 
的 两 个 循环 。 类 的 用 法 如 下 : 

// 构造 匹配 器 

cv::BFMatcher matcher (cv: :NORM_L2) ; 

// 匹配 两 幅 图 像 的 描述 子 


std: :vector<cv: :DMatch> matches; 
matcher.match(descriptorsl,descriptors2, matches); 


EN :DescriptorMatcher 类 为 不 同 的 匹配 策略 定义 了 通用 的 接口 FRR :BFMatcher 是 它 
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的 子 类 。 返 回 的 结果 是 一 个 cv: :DMatch 实 例 的 向 量 。 

采用 SUREF 的 Hessian 阔 值 ， 第 一 幅 图 像 得 到 90 个 关键 点 ， 第 二 幅 得 到 80 个 关键 点 。 这 种 
brute-force 方 法 ( 穷 举 法 ) 将 进行 90 次 匹配 运算 。 跟 上 节 一 样 ,使 用 cv: : drawMatches 类 得 到 如 
下 的 图 像 : 








[ SURF Matches 一 口 














可 以 看 到 ,有些 匹配 项 正确 地 连接 了 左 侧 的 点 和 右 侧 对 应 的 点 。 也 有 些 匹 配 项 是 错误 的 ,部 
分 原因 是 建筑 物 的 对 称 性 导致 无 法 明确 地 匹配 。 对 于 SIFT, 采用 同样 数量 的 关键 点 , 得 到 匹配 结 
果 如 下 : 





|. SIFT Matches 一 口 














9.3.2 ”实现 原理 


好 的 特征 描述 子 不 受 照 明和 视角 微小 变动 的 影响 , 也 不 受 图 像 中 噪声 的 影响 。 因 此 它们 通常 
基于 局 部 强度 值 的 差 值 。SURF 描 述 子 正 是 如 此 ， 它 在 关键 点 周围 局 部 地 应 用 下 面 的 简易 内 核 : 
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第 一 个 内 核 度量 水 平方 向 的 局 部 强度 值 差 值 ( 标 为 dx ), 第 二 个 内 核 度 量 垂直 方向 的 差 值 ( 标 
为 dy )。 用 于 提取 描述 子 向 量 的 邻 域 尺 寸 ， 通 常 定 为 特征 值 缩放 因子 的 20 倍 ( 即 200 )。 然 后 把 这 
个 正方 形 区 域 划 分 成 更 小 的 4 x 4 子 区域 。 对 于 每 个 子 区 域 ， 在 5 x 5 等 分 的 位 置 上 ( 用 尺寸 为 2o 
的 内 核 ) 上 计算 内 核 反 馈 值 (dx 和 dy )。 用 下 面 的 方法 累加 这 些 反 馈 值 ， 为 每 个 子 区 域 提取 4 个 描 
述 子 值 : 



































[Zadx Bdy Zldx| Yldy|| 


由 于 子 区 域 的 数量 是 4 x 4 = 16 个 ， 因 此 描述 子 值 的 总 数 为 64 个 。 为 了 赋予 邻近 像素 ( 即 
靠近 关键 点 的 值 ) 更 高 的 权重 ， 用 一 个 以 关键 点 为 中 心 的 高 斯 算 子 对 内 核 反 馈 值 进行 加 权 计 算 
( 用 o = 3.3 由 


dx 和 dy 反馈 值 也 用 于 估算 特征 的 方向 。 在 半径 为 6c 的 圆 形 邻 域内 计算 这 些 值 (内核 太 二 为 
4c )， 该 邻 域 的 位 置 用 间隔 co 进行 分 片 。 在 指定 的 方向 上 ， 累 计 某 个 角度 间隔 (zw3 ) 内 的 反馈 值 ， 
向 量 最 长 的 方向 就 定义 为 主 方向 。 

SIFT 描 述 子 包含 的 内 容 更 多 , 它 采用 图 像 梯 度 而 不 是 单纯 的 强度 差 值 。 它 也 将 关键 点 周围 的 
正方 形 邻 域 分 割 成 4 x 4 的 子 区 域 (也 可 以 使 用 8 x 8 或 2 x 2 的 子 区 域 )。 每 个 区 域内 部 建立 一 个 梯 
度 方向 直方 图 。 这 些 方向 被 分 隔 进 8 个 箱子 ， 每 个 梯度 方向 数值 的 递增 量 与 梯度 幅 值 成 正比 。 下 
面 的 图 片 描述 了 这 个 过 程 ， 每 个 星 形 箭头 代表 一 个 局 部 的 梯度 方向 直方 图 : 
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让 








这 里 有 16 个 直方 图 , 每 个 直方 图 包含 8 个 连接 在 一 起 的 箱子 ,它们 形成 了 一 个 128 维 的 描述 子 。 
对 于 SURF 而 言 ， 梯 度 值 是 用 一 个 以 关键 点 为 中 心 的 高 斯 滤波 器 加 权 计 算得 到 的 ， 用 以 降低 邻 域 
边界 上 梯度 方向 的 突然 变化 对 描述 子 的 影响 。 为 了 使 差 值 度量 更 加 一 致 ， 最终 的 描述 子 会 进行 归 
一 化 处 理 。 




















使 用 SURF 和 SIFT 的 特征 和 描述 子 可 以 进行 尺度 无 关 的 匹配 。 下 面 的 例子 展示 了 对 两 幅 不 同 
尺度 的 图 像 做 SURF 匹 配 的 结果 ( 这 里 显示 了 50 个 最 佳 的 匹配 项 ): 





悍 multi-scale SIFT Matches ”一 口 














9.3.3 扩展 阅读 


用 任何 算法 得 到 的 匹配 结果 都 含有 相当 多 的 错误 匹配 项 。 有 一 些 策略 可 以 提高 匹配 的 质量 。 
这 里 介绍 其 中 两 种 。 


1. 交叉 检查 匹配 项 








有 一 种 简单 的 方法 可 以 验证 得 到 的 匹配 项 ， 即 重新 进行 同一 个 匹配 过 程 。 第 二 次 匹配 时 ， 
将 第 二 幅 图 像 的 每 个 关键 点 逐个 与 第 一 幅 图 像 的 全 部 关键 点 进行 比较 。 只 有 在 两 个 方向 都 匹配 
了 同一 对 关键 点 ( 即 两 个 关键 点 互 为 最 佳 匹配 )， 才 认为 是 一 个 有 效 的 匹配 项 。 孙 数 
cv: :BFMatcher 提 供 了 一 个 选项 来 使 用 这 个 策略 。 把 有 关 标 志 设 置 为 true， 函 数 就 会 对 匹配 
进行 双向 的 交叉 检查 : 

// 构造 带 交叉 检查 的 匹配 器 

cvV: :BFMatcher matcher2 (cv::NORM L2，// 度量 差距 

true); // 交叉 检查 标志 


改进 后 的 匹配 结果 如 下 图 所 示 ( 用 SURF 的 情形 ): 
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二 SURF Matches (with crosscheck) 一 














2. 比率 检验 法 


我 们 已 经 注意 到 , 正 是 场景 物体 中 的 重复 元 素 导 致 了 匹配 结果 不 可 靠 , 这 是 因为 在 匹配 视觉 
上 ， 类似 的 结构 时 会 产生 卜 义 。 这 种 情况 下 ,一 个 关键 点 会 与 多 个 关键 点 很 好 地 匹配 。 因 为 选中 
错误 匹配 的 可 能 性 很 大 ， 所 以 比较 可 取 的 做 法 是 排除 此 类 匹配 。 


要 使 用 这 种 策略 ， 需 要 为 每 个 关键 点 找到 两 个 最 佳 的 匹配 项 。 可 以 用 cv: :Descriptor 
Matcher 类 的 knnMatch 方 法 实现 这 个 功能 。 我 们 只 需要 两 个 最 佳 匹配 项 ， 因 此 指定 上 = 2。 
// 为 每 个 关键 点 找 出 两 个 最 佳 匹配 项 
std: :vector<std: :vector<cv: :DMatch>> matches2; 


matcher.knnMatch (descriptorsl,descriptors2, matches2, 


2); // 找 出 k 个 最 佳 匹 本 项 


下 一 步 是 排除 与 第 二 个 匹配 项 非常 接近 的 全 部 最 佳 匹配 项 。 因 为 kennMatch 生 成 了 一 个 
std: :Vector 类 型 (此 向 量 的 长 度 为 k) 的 sta: :vector 类 , 这 一 步 的 具体 做 法 是 循环 遍历 每 个 
关键 点 匹配 项 ， 然 后 执行 比率 检验 法 ((ratio test )， 如 果 两 个 最 佳 匹 配 项 相等 ， 那 么 比率 为 1 )。 
代码 如 下 : 

// 执行 比率 检验 法 

double ratio= 0.85; 


std: :vector<std: :vector<cv: :DMatch>>::iterator it; 
for (it= matches2.begin(); it!= matches2.end(); ++it) { 





// 第 一 个 最 佳 匹配 项 /第 二 个 最 佳 匹配 项 
if ((*it)[0] .distance/(*it) [1] .distance < ratio) { 
// 这 个 匹配 项 可 以 接受 
matches.push back((*it){[0]); 
} 
} 
// matches 是 新 的 匹配 项 集合 


WE 


原始 匹配 项 集合 的 90 对 已 减少 为 现在 的 33 对。 正确 匹配 项 的 比例 已 经 很 高 : 























3. 匹配 差 值 的 阅 值 化 


还 有 一 种 更 加 简单 的 策略 ， 就 是 把 描述 子 之 间 的 差 值 太 大 的 匹配 项 排除 。 实 现 此 功能 的 是 


cv: :DescriptorMatcher 类 的 radiusMatch 方 法 : 


// 指定 范围 的 匹配 
float maxDist= 0.4; 
std: :vector<std::vector<cv: :DMatch>> matches2; 


matcher.radiusMatch (descriptorsl1l, descriptors2, matches2, 


maxDist); // 两 个 描述 子 之 间 的 最 大 允许 差 值 
因为 这 个 方法 会 保留 所 有 差 值 小 于 指定 阔 值 的 匹配 项 ， 它 得 到 的 结果 仍 是 std: :vector 类 
型 的 std: :vector 类 。 这 说 明 对 于 一 个 关键 点 ， 在 另 一 幅 图 像 上 可 能 有 多 个 匹配 点 。 另 一 方面 ， 
其 他 关键 点 将 会 没有 匹配 项 ( 对 应 的 内 部 类 stad: :vector 的 长 度 为 0 )。 这 样 ， 匹 配 项 的 数量 从 
原来 的 90 对 减少 到 37 对 ， 如 下 图 所 示 : 





| SURF Matches (with min radius) 一 口 














当然 了 ， 这 些 策略 是 可 以 组 合 起 来 使 用 的 ， 以 提升 匹配 效果 。 
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9.3.4 参阅 


口 8.4 广 介绍 了 相关 的 SURF 和 SIFT 特 征 检 测 器 ， 并 提供 了 更 多 的 参考 资料 。 

口 10.4 节 解释 了 如 何 利用 图 像 和 场景 几何 形状 来 获得 质量 更 高 的 匹配 项 。 

口 E. Vincent 和 R. Laganiere 发 表 在 Machine, Graphics and Vision 2001 年 第 237 页 至 第 260 页 的 
“Matching feature points in stereo pairs: A comparative study of some matching strategies” 描 


述 了 其 他 简单 的 匹配 策略 ， 可 用 于 提高 匹配 的 质量 。 














9.4 用 二 值 特征 描述 关键 点 


上 一 节 我 们 学 习 了 如 何 用 提取 自 图像 强 度 值 梯度 的 、 丰 富 的 描述 子 来 描述 关键 点 。 这 些 描述 
了 是 浮 点 数 类 型 的 向 量 ， 大 小 为 64 或 128， 有 时 其 至 更 大 。 这 导致 对 它们 的 操作 所 耗资 源 特别 大 。 
为 了 减少 内 存 使 用 ,降低 计算 量 , 最 近 人 们 引入 了 二 值 描 述 子 的 概念 。 这 里 的 难点 在 于 ， 既 要 容 
易 计 算 ， 又 要 在 场景 和 视角 变化 时 保持 鲁 棒 性 。 本 节 介 绍 其 中 的 几 种 二 值 描述 子 。 重 点 讲解 ORB 
和 BRISK 描 述 子 ， 第 8 章 介绍 了 与 它们 相关 的 特征 点 检测 器 。 


























9.4.1 如何 实现 


OpenCV 的 检测 器 和 描述 子 模块 是 在 通用 性 很 强 的 接口 上 构建 的 ， 得 益 于 此 ，ORB 等 二 值 描 
述 子 的 用 法 与 SURF、SIFT 等 没有 什么 区 别 。 基 于 特征 的 图 像 匹 配 的 整个 过 程 如 下 所 示 : 


// 定义 关键 点 向 量 
std: :vector<cv: :KeyPoint> keypointsl, keypoints2; 
// 构造 ORB 特 征 检 测 器 对 象 
CVv::Ptr<cv::FeatureDetector> detector = 

new cv::ORB(100); // 检测 大 约 100 个 ORB 特 征 点 
// 检测 ORB 特 征 
detector->detect (imagel, keypointsl1); 
detector->detect (image2, keypoints2); 
// ORB 包 含 了 检测 器 和 描述 子 提取 器 
Cv::Ptr<cv: :DescriptorExtractor> descriptor = detector; 
// 提取 描述 子 
cv::Mat descriptorsl, descriptors2; 
descriptor->compute(imagel,keypointsl1,descriptors1); 
descriptor->compute(image2, keypoints2,descriptors2); 
// 构造 匹配 器 
cv: :BFMatcher matcher ( 

CV: :NORM_HAMMING); // 对 二 值 描述 子 ， 永 远 使 用 hamming 规 范 

// 匹配 两 个 图 像 描述 子 
std: :Vector<cV::DMatch> matches; 
matcher.match(descriptorsl,descriptors2, matches); 


唯一 的 区 别 是 使 用 了 Hamming 规 范 ( cv: :NORM_HAMMING 标 志 ), 它 通 过 统计 不 一 致 的 位 数 ， 
计算 两 个 二 值 描 述 子 的 差 值 。 在 很 多 处 理 器 上 , 这 可 以 通过 一 个 异 或 运算 加 上 简单 的 位 数 统计 来 
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实现 ， 并 且 效 率 很 高 。 
下 图 显示 了 匹配 的 结 





好 ORB Matches 一 口 














BRISK 是 男 一 个 常见 的 二 值 特征 检测 器 ( 描述 子 )， 用 它 也 能 得 到 类 似 的 结果 。 这 时 要 调用 
新 的 cv: :BRISK(40) 来 创建 cv: :DescriptorExtractor 实 例 。 和 上 一 章 一 样 ， 它 的 第 一 个 参 
数 是 一 个 浆 值 ， 用 以 控制 被 检测 特征 点 的 数量 。 








9.4.2 ”实现 原理 


ORB 算 法 在 多 个 尺度 下 检测 特征 点 , 这 些 特征 点 含有 方向 。 基于 这 些 特征 点 , ORB 描 述 子 通 
过 简单 比较 强度 值 ， 提 取出 每 个 关键 点 的 表征 。 实 际 上 ORB 就 是 在 BRIEF 描 述 子 的 基础 上 构建 的 
(前面 介绍 过 BRIEF 描 述 子 ),。 然后 在 关键 点 周围 的 邻 域内 随机 选取 一 对 像素 点 , 创建 一 个 二 值 描 
述 子 。 比 较 这 两 个 像素 点 的 强度 值 ， 如 果 第 一 个 点 的 强度 值 较 大 ， 就 把 对 应 描述 子 的 位 (bit ) 设 
为 1， 否则 就 设 为 0。 对 一 批 随机 像素 点 对 进行 上 述 处 理 ， 就 产生 一 个 由 若干 位 (bit ) 组 成 的 描述 
子 。 通 常 采用 128 到 512 位 ( 成 对 地 测试 )。 


这 就 是 ORB 采 用 的 模式 。 接 下 来 ,就 要 判断 哪些 像素 点 对 可 用 于 构建 描述 子 。 事实 上 , 虽然 
像素 点 对 是 随机 选取 的 ,一旦 被 选中 就 要 进行 同样 的 二 值 测试 ， 并 构建 全 部 关键 点 的 描述 子 ， 以 
确保 结果 的 一 致 性 。 直 觉 告 诉 我 们 ,选择 合适 的 像素 点 对 ， 可 以 使 描述 子 具 有 更 大 的 独特 性 。 并 
且 每 个 关键 点 的 方向 是 已 经 确定 的 , 如 果 根 据 方向 对 该 关键 点 进行 调整 ( 即使 用 相对 于 关键 点 方 
向 的 坐标 )， 就 会 导致 强度 值 模式 分 布 的 偏差 。 考 虑 到 这 些 因素 ， 并 根据 实验 验证 ，ORB 选 出 了 
变化 幅 值 较 高 、 相 关 性 极 小 的 256 对 像素 点 。 也 就 是 说 ， 针 对 各 种 关键 点 ， 这 些 选用 的 二 值 测试 
项 等 于 0 或 1 的 几率 是 均等 的 ， 并 且 它 们 之 间 的 依赖 性 是 最 小 的 。 


cv: :ORB 构 造 函数 除了 包括 控制 特征 检测 过 程 的 参数 ,还 有 两 个 与 描述 子 有 关 的 参数 。 一 个 
表示 包含 像素 点 对 的 图 像 块 的 尺寸 (默认 值 为 31 x 31 )。 另 一 个 用 来 测试 3 个 或 4 个 像素 点 为 一 组 
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的 点 集 ， 而 不 是 默认 的 像素 点 对 。 强 烈 建 议 采用 默认 设置 。 


BRISK 描 述 子 的 情况 也 非常 类 似 ， 它 的 基础 也 是 成 对 地 比较 强度 值 。 但 有 两 点 不 同 。 首 先 ， 
它 不 是 从 31 x 31 的 邻 域 中 随机 选取 像素 ,而 是 从 一 系列 等 间距 的 同心 加 ( 由 60 个 点 组 成 ) 的 采样 
模式 中 选取 。 第 二 ， 这 些 采 样 点 的 强度 值 都 经 过 高 斯 平滑 处 理 ， 处 理 中 使 用 的 c 值 与 该 像素 到 圆 
心 的 距离 成 正比 。BRISK 从 这 些 点 中 选取 512 对 。 

















9.4.3 扩展 阅读 


此 外 还 有 一 些 二 值 描述 子 , 有 兴趣 的 读者 可 以 查看 有 关 科 学 文献 。 这 里 我 们 介绍 另 一 种 可 以 
在 OpenCV 中 使 用 的 描述 子 。 


FREAK 


FREAK 全 称 为 Fast Retina Keypoint ( 快速 视网膜 关键 点 )。FREAK 也 是 一 种 二 值 描述 子 ， 但 
没有 对 应 的 检测 器 。 它 可 以 应 用 于 所 有 已 检测 到 的 关键 点 ， 例 如 SIFT、SURF 或 ORB。 


与 BRISK 一 样 ，FREAK 描 述 子 也 基于 用 同心 圆 定 义 的 采样 模式 。 但 为 了 设计 描述 子 ,设计 
者 们 用 人 类 的 眼睛 做 类 比 。 他 们 发 现 ，, 随 着 与 中 央 四 距离 的 增加 ,视网膜 上 的 神经 节 细 胞 密度 会 
减 小 。 因 此 他 们 用 43 个 像素 点 来 构建 采样 模式 ， 中心 点 附近 的 像素 密度 比 其 他 地 方 要 高 得 多 , 为 
了 获得 它 的 强度 值 ， 每 个 像素 都 用 高 斯 内 核 进行 滤波 ， 当 与 中 心 点 的 距离 增加 时 ， 内核 的 尺寸 也 
随 之 增 大 。 

根据 经 验 , 可 以 采用 ORB 中 使 用 的 类 似 策略 ,标识 出 需要 执行 的 成 对 比较 项 。 通 过 对 几 千 个 
关键 点 的 分 析 ， 可 得 到 具有 最 高 变化 幅 值 和 最 低 相 关 性 的 二 值 测试 项 ， 最 终 为 512 对 。 

FREAK 还 引入 了 阶梯 式 比 较 描述 子 的 概念 。 具 体 做 法 是 ， 首 先 执行 表示 较 粗略 的 信息 的 前 
面 128 位 (用 较 大 的 高 斯 内 核 , 在 外 围 进行 测试 )。 只 有 对 比 的 描述 子 通 过 了 第 一 步 测试 , 后 面 的 
测试 才能 进行 。 

用 ORB 算 法 检测 到 关键 点 后 ,只 需 用 下 面 的 方法 创建 cv: :DescriptorExtractor 实 例 即 可 
提取 出 FREAK 描 述 子 : 














































































































CVv::Ptr<cv: :DescriptorExtractor> descriptor = 
new CV::FREAK(); // 用 FREAK 描 述 


匹配 结果 如 下 : 














夯 FREAK Matches 去 加 


ON A 














第 一 个 方块 是 ORB 描 述 子 , 像素 点 对 是 在 正方 形 网 格 中 随机 选取 的 。 每 个 像素 点 对 用 线条 连 
接 起 来 , 表示 比较 两 个 像素 强度 值 的 概率 测试 。 这 里 只 显示 了 8 对 , ORB 默认 使 用 256 对 。 中 间 的 
方块 是 BRISK 采 样 模式 。 在 圆 形 上 均匀 地 采样 像素 点 〈 显 然 ， 这 里 只 显示 了 第 一 个 圆 的 点 )。 第 
三 个 方块 是 FREAK 的 对 数 极 坐标 的 采样 网 格 。BRISK 的 采样 点 是 均匀 分 布 的 ， 而 FREAK 在 近 中 
心 点 的 地 方 密度 更 高 。 例如 ,BRISK 的 外 围 圆 圈 上 有 20 个 点 , 而 FREAK 的 外 围 圆 圈 上 只 有 6 个 点 。 











9.4.4 ”参阅 


口 8.5 节 介绍 了 相关 的 BRISK 和 ORB 特 征 检测 器 ， 并 提供 了 更 多 的 参考 资料 。 

口 E. M. Calonder 、V. Lepetit 、M. Ozuysal 、T. Trzcinski 、C. Strecha 和 了 Fua 发 表 在 IEEE 
Transactions on Pattern Analysis and Machine Intelligence ( 2012 年 ) 的 “BRIEF: Computing 
a Local Binary Descriptor Very Fast” 介 绍 了 BRIEF 特 征 描 述 子 ， 引 入 二 值 描 述 子 的 概念 。 

口 A.Alahi、R. Ortiz 和 P. Vandergheynst 发 表 在 IEEE Conference on Computer Vision and 

Pattern Recognition( 2012 年 ) 的 “FREAK: Fast Retina Keypoint article” 介 绍 了 FREAK 

特征 描述 子 。 





估算 图 像 之 间 的 投影 关系 








本 章 包 括 以 下 内 容 : 


口 相机 校准 ; 

口 计算 图 像 对 的 基础 矩阵 ; 

口 用 RANSAC 算 法 匹配 图 像 ; 

口 计算 两 幅 图 像 之 间 的 单 应 和 矩阵。 





10.1 简介 


通常 图 像 是 由 数码 相机 拍摄 得 到 的 , 它 通 过 透镜 投射 光线 ,在 图 像 传 感 融 上 捕获 场景 。 图像 
由 三 维 场 景 在 二 维 平面 上 的 投影 形成 , 这 表明 场景 和 它 的 图 像 之 间 以 及 同一 场景 的 不 同 图 像 之 间 
都 有 着 重要 的 关联 。 投影 几何 学 是 用 数学 术语 描述 和 区 分 成 像 过 程 的 工具 。 本 章 将 介绍 儿 种 多 视 
图 像 中 基本 的 投影 关系 ,并 解释 如 何在 计算 机 视觉 编程 中 应 用 。 你 将 学 会 如 何 通 过 投影 约束 使 
匹配 更 加 精确 ， 如何 用 双 视 图 关联 方法 将 多 幅 图 像 组 合成 全 景 图 。 在 开始 正文 前 , 我 们 先 探讨 与 
场景 投影 和 成 像 过 程 有 关 的 一 些 基 本 概念 。 
































负 











成 像 过 程 


自从 照相 术 发 明 以 来 , 生成 图 像 的 基本 过 程 就 没有 变 过 。 光 线 从 被 摄 景 象 发 出 并 穿 过 前 置 孔 
径 ， 被 相机 捕获 ， 捕 获 到 的 光线 触发 相机 后 面 的 影像 平面 (或 图 像 传感器 )。 此 外 ， 透 镜 的 使 用 
使 来 自 不 同 场 景 元 素 的 光线 得 以 集中 。 下 面 的 示意 图 展现 了 成 像 过 程 : 
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被 摄 物 体 
光线 











影像 平面 
























































这 里 的 do 是 透镜 到 被 摄 物 体 的 距离 ，di 是 透镜 到 影像 平面 的 距离 ,是 透镜 的 焦距 。 这 些 数 据 
的 关系 称 为 薄 镜 公式 : 





在 计算 机 视觉 中 , 有 多 种 方法 可 以 简化 这 个 相机 模型 。 第 一 种 方法 是 考虑 到 相机 的 口径 极 小 ， 
因而 可 将 镜头 的 影响 忽略 不 计 。 从 理论 上 讲 ， 这 并 不 会 改变 图 像 的 外 观 。( 但 是 这 么 做 了 之 后 ， 
我 们 就 会 创建 无 限 景 深 的 图 像 而 忽略 了 聚焦 效应 。) 因此 ， 在 这 种 情况 下 只 需 考虑 中 心 的 光线 。 
第 二 种 方法 ， 因 为 大 多 数 情况 下 满足 条 件 ao>>ai ， 我 们 可 以 假定 影像 平面 处 于 焦点 位 置 。 最 后 
一 种 方法 ， 根 据 几 何 学 我 们 可 发 现 影像 平面 上 的 图 像 是 反 转 的 。 只 要 把 影像 平面 放 在 镜头 前 面 ， 
就 能 得 到 跟 原 来 几乎 一 样 却 不 反 转 的 图 像 。 从 物理 学 上 看 , 这 显然 不 可 行 。 但 是 从 数学 的 角度 看 ， 
结果 完全 是 等 效 的 。 这 种 简化 模型 通常 称 为 针 孔 照相 机 模型 ， 如 下 图 所 示 : 









































被 可 物体 
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根据 这 个 模型 和 相似 三 角形 的 定理 , 我 们 可 以 很 容易 地 推导 出 表示 被 摄 物体 与 它 的 图 像 的 关 
系 的 基本 投影 方程 : 








物体 (高 度 为 ho ) 对 应 的 图 像 大 小 ( 友 ) 与 它 到 相机 的 距离 ( do ) 成 反比 ， 这 是 很 自然 的 规 
律 。 通 常 在 相机 几何 结构 已 知 的 情况 下 , 这 个 关系 决定 了 三 维 场景 的 点 在 影像 平面 上 投影 的 位 置 。 





10.2 ”相机 校准 


根据 本 章 的 简介 部 分 , 我 们 知道 针 孔 模型 下 相机 的 基本 参数 , 是 它 的 焦距 和 影像 平面 的 大 小 
( 它 决定 了 相机 的 视野 )。 另 外， 因为 我 们 处 理 的 是 数字 图 像 ， 所 以 图 像 的 像素 数量 ( 分 辩 率 ) 是 
相机 的 男 一 个 重要 属性 。 最 后 ， 为 了 能 计算 图 像 上 场景 点 的 位 置 ( 用 像素 坐标 表示 )， 我 们 还 需 
要 额外 的 信息 。 考 虑 一 条 从 角 点 出 发 、 与 影像 平面 垂直 的 直线 ,我 们 需要 知道 这 条 直线 在 哪个 像 
素 的 位 置 穿 透 影像 平面 。 这 个 点 称 为 像 主 点 。 在 逻辑 上 ,我 们 可 以 假定 像 主 点 位 于 影像 平面 的 中 
心 位 置 , 但 是 在 实际 中 这 个 点 会 偏离 几 个 像素 的 距离 ， 具 体 取决 于 该 相机 的 制造 精度 。 


相机 校准 就 是 设置 相机 各 种 参数 的 过 程 。 当 然 也 可 以 使 用 相机 厂家 提供 的 技术 参数 , 但 是 对 
于 某 些 任务 ( 例如 三 维 重建 )， 这 些 技术 参数 是 不 够 精确 的 。 相 机 校准 的 过 程 ， 就 是 用 相机 拍摄 
特定 的 图 案 并 分 析 得 到 的 图 像 ， 然 后 在 优化 过 程 中 确定 最 佳 的 参数 值 。 这 是 一 个 复杂 的 过 程 , 但 
OpenCV 的 校准 孔 数 已 经 让 它 变 得 很 容易 。 













































































10.2.1 ”如何 实现 


相机 校准 的 基本 原理 是 , 确定 场景 中 一 系列 点 的 三 维 坐标 并 拍摄 这 个 场景 , 然后 观测 这 些 点 
在 图 像 上 投影 的 位 置 。 有 了 足够 多 的 三 维 点 和 图 像 上 对 应 的 二 维 点 , 就 可 以 根据 投影 方程 推断 出 
准确 的 相机 参数 。 显 然 , 为 了 得 到 精确 的 结果 ， 就 要 观测 尽 可 能 多 的 点 。 一 种 方法 是 对 一 个 包含 
大 量 三 维 点 的 场景 取 像 。 但 是 在 实际 操作 中 , 这 种 做 法 几乎 是 不 可 行 的 。 更 实用 的 做 法 是 针对 一 
部 分 三 维 的 点 ， 从 不 同 的 视角 拍摄 多 个 照片 。 这 种 方法 相对 比较 简单 , 但 是 它 除 了 需要 计算 相机 
本 身 的 参数 ， 还 需要 计算 每 个 相机 视图 的 位 置 。 


OpenCV 推 荐 使 用 国际 象棋 棋盘 的 图 案 生 成 用 于 校准 的 三 维 场景 点 的 集合 。 这 个 图 案 在 每 个 
方块 的 角 点 位 置 创建 场景 点 ， 并 且 由 于 图 案 是 平面 的 ， 因 此 我 们 可 以 假设 棋盘 位 于 Z=0 且 X 和 7 的 
坐标 轴 与 网 格 对 齐 的 位 置 。 这 样 ， 校 准时 就 只 需 从 不 同 的 视角 拍摄 棋盘 图 案 。 下 面 是 一 个 6 x 4 
的 图 案 : 
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好 在 OpenCV 有 一 个 自动 检测 棋盘 图 案 中 角 点 的 函数 。 只 需要 提供 一 幅 图 像 和 棋盘 尺寸 (水 
平和 垂直 方向 内 部 角 点 的 数量 )， 函数 就 会 返回 图 像 中 所 有 棋盘 角 点 的 位 置 。 如 果 无 法 找到 图 案 ， 
函数 返回 false: 

// 输出 图 像 角 点 的 向 量 


std: :vector<cv::Point2f> imageCorners; 
// 棋盘 内 部 角 点 的 数量 
cvV::Size boardSize(6,4); 


// 获得 棋盘 角 点 
bool found = cv::findChessboardCorners (image, 
boardSize, imageCorners); 


输出 参数 ijmageCcorners 将 存储 检测 到 的 内 部 角 点 的 像素 坐标 。 注意, 这 个 函数 还 可 以 使 用 
其 他 参数 来 调节 算法 ,这 里 不 讨论 。 此 外 还 有 一 个 专门 的 函数 来 画 出 棋盘 图 像 上 的 角 点 ,用 线条 
依次 连接 起 来 : 

// 画 出 角 点 


cv: :drawChessboardCorners (image, 
boardSize, imageCorners, 


found); // 找到 的 角 点 























得 到 如 下 图 像 : 





加 | 


则 Detected points “一 
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II nie: 。 在 校准 前 需要 指定 相关 的 三 维 点 。 

这 些 点 时 可 自由 选择 单位 (例如 厘米 或 瑞 寸 ) 不 过 最 简单 的 办 法 是 指定 方块 的 边 长 为 一 个 
单位 。 这 样 第 一个 点 的 坐标 就 是 (0, 0, 0) ( 假设 棋盘 的 纵深 坐标 为 Z2=0), 第 二 个 点 的 坐标 是 (1, 0， 
0)， 依 此 类 推 ， 最 后 一 个 点 的 坐标 是 (5, 3, 0)。 这 个 图 案 共 有 24 个 点 ， 要 进行 精确 的 校准 ， 这 些 
点 是 远 远 不 够 的 。 为 了 得 到 更 多 的 点 , 需要 对 同一 个 校准 图 案 , 从 不 同 的 视角 拍摄 更 多 的 照片 。 
可 以 在 相机 前 移动 图 案 ， 也 可 以 在 棋盘 周围 移动 相机 。 从 数学 的 角度 看 ， 这 两 种 方法 是 完全 等 
效 的 。OpenCV 的 校准 函数 假定 由 棋盘 图 案 确 定 坐 标 系 , 并 计算 相机 相对 于 坐标 系 的 旋转 量 和 平 


移 量 。 









































我 们 把 校准 过 程 封装 在 cameracalibrator 类 中 。 类 的 属性 有 : 


class CameraCalibrator { 


// 输入 点 : 

// 世界 坐标 系 中 的 点 

std: :vector<std: :Vector<CcV: :Polint3f>> objectPoints; 
// 点 的 位 置 (以 像素 为 单位 ) 

std: :vector<std: :vector<cv::Point2f>> imagePoints; 
// 输出 矩阵 

cV: :Mat cameraMatrix; 

GN Mat Se 

// 指定 校准 方式 的 标志 

int flag; 


意 , 输入 的 场景 和 像素 点 的 向 量 其 实 是 Point 实 例 组 成 的 sta: :vector。 每 个 向 量 元 素 也 


是 一 个 向 量 ， 表示 一 个 视角 的 点 集 。 这 里 我 们 采用 增加 校准 点 的 方法 ,指定 一 个 以 一 批 棋盘 图 像 
的 文件 名 为 输入 对 象 的 向 量 : 


// 打开 棋盘 图 像 ， 并 提取 角 点 

int CameraCalibrator: :addChessboardPoints!( 
const std::vector<std::string>& filelist, 
CVv::SizZe & boardSize) { 

















// 棋盘 上 的 角 点 
std: :vector<cv::Point2f> imageCorners; 
std: :vector<cv::Point3f> objectCorners; 


// 场景 中 的 三 维 点 : 

// 在 棋盘 坐标 系 中 ， 初 始 化 棋盘 中 的 角 点 

// 角 点 的 三 维 坐 标 (X,Y,Z)= (i,j,0) 

for (int i=0; i<boardSize.height; i++) { 
for (int j=0; j<boardSize.width; j++) { 

objectCorners.push back(cv::Point3f (i, j, 0.0f)); 

} 

} 





// 图 像 上 的 二 维 点 : 
cv::Mat image; // 用 于 存储 棋盘 图 像 


int successes = 0; 
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iT 有 视角 

i=0; i<filelist.size(); i++) { 
// 打开 图 像 

image cv::imread(filelist[i],0); 


// 取得 棋盘 中 的 角 点 


// 处 理 月 
for (int 








boardSize, imageCorners); 


bool found = cv::findChessboardCorners( 
image, 
// 取得 角 点 上 的 子 像素 级 精度 


cvV: :CornerSubPix(image，imageCorners， 


cv::Size(5,5), 
人 
cV: :TermCriteria(cV: 


:TermCriteria:: 


MAX_ITER + 


cv: :TermCriteria::EPS, 
3:0% // 最 大 选 代 次 数 
0.1)); // 最 小 精度 
/ /如果 棋 盘 是 完好 的 ， 就 把 它 加 入 结果 
if (imageCorners.size() == boardSize.area()) { 


图 像 和 场景 点 





// 加 入 从 同一 个 视角 得 到 的 


addPoints (imageCorners, objectCorners); 


successest+t+; 
下 
} 
return successes; 


} 


第 一 个 循环 中 输入 棋盘 的 三 维 坐 标 ， 然 后 通过 区 





数 cv: :findchessboardCorners 获 得 图 





像 中 对 应 的 点 。 图 像 中 所 有 可 能 的 视角 都 会 执行 该 过 程 。 并 有 目 使 用 cv: :cornerSupPix 了 因数 可 以 


函数 名 所 示 ， 





使 图 像 上 点 的 位 置 更 精确 ， 正 如 


Pz 全 已 


已 甩 








以 子 像素 级 精度 定位 图 像 中 的 点 。 用 


cv: :TermCriteria 对 象 指定 终止 的 条 件 , 它 定义 了 最 大 迭代 次 数 和 最 小 子 像素 级 坐标 精度 。 只 





要 这 两 个 条 件 中 有 一 个 满足 ， 这 个 


和 点 细 化 过 程 就 会 





结束 。 


在 成 功 地 检测 到 一 批 棋盘 角 点 后 ,用 自 定义 的 aaaPoints 方 法 把 这 些 点 加 入 图 像 和 场景 点 的 





向 量 。 处 理 完 足 够 数量 的 棋盘 图 像 后 ( 这 时 就 有 了 大 量 的 三 维 场景 点 /二 维 图 像 点 的 对 应 关系 )， 





就 可 以 开始 计算 校准 参数 : 


// 校准 相机 
// 返回 重 投 影 误差 
double CameraCcaliprator::calibrate(cv::Size 
{ 
// 输出 旋转 量 和 平移 量 





std: :vector<cv: :Mat> rvecs, tvecs; 

// 开始 校准 

return 

calipbrateCamera (objectPoints，// 三 维 点 

imagePoints， // 图 像 点 
imageSize, // 图 像 尺 寸 
cameraMatrix，// 输出 相机 和 矩阵 
distCoeffs, // 输出 畸变 矩阵 


&imageSize) 
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rvecs, tvecs, // Rs, Ts 
flag); // 设置 选项 
} 
根据 经 验 ，10~20 个 棋盘 图 像 就 足够 了 ， 但 是 必须 在 不 同 的 深度 ， 从 不 同 的 视角 拍摄 。 这 个 
函数 的 两 个 重要 输出 对 象 是 相机 和 矩阵 和 畸变 参数 。 后 面 会 详细 介绍 。 











10.2.2 ”实现 原理 


为 了 解释 校准 的 结果 , 我 们 重新 看 一 下 简介 部 分 的 针 孔 相 机 模型 示意 图 。 尤其 是 要 论证 三 维 
点 (也 刀 和 对 应 的 图 像 点 (x, y) 之 间 的 关系 ， 其 中 相机 中 的 图 像 点 用 像素 坐标 表示 。 我 们 在 示意 
图 的 投影 中 心 加 上 坐标 系 ， 如 下 图 所 示 : 
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习惯 上 我 们 把 左上 角 作 为 图 像 的 原点 ， 为 了 保证 坐标 系 与 之 保持 一 致 ， 这 里 的 7 难 标 轴 是 向 
下 的 。 前面 我 们 学 过 ,，(X, 7, 必 点 会 投影 到 图 像 平面 的 YWZ, 多 D) 位 置 。 现 在 为 了 转换 成 像素 坐标 ， 
需要 把 二 维 图 像 的 位 置 分 别 除 以 像素 宽度 (p, ) 和 高 度 (p, )。 注 意 ， 以 世界 单位 ( 一般 用 毫米 ) 
表示 的 焦距 除 以 p, 后 ， 就 得 到 以 像素 单位 表示 的 焦距 ( 水 平方 向 )。 同样 的 ，f=fpy 是 以 像素 为 单 
位 的 垂直 方向 的 焦距 。 因 此 完整 的 投影 方程 为 : 

f/xX 


= 
X= 一 一 十 20 


Z 



































前 面 讲 过 ，( wo, vo ) 是 像 主 点 ， 将 其 添加 到 结果 ， 以 实现 将 原点 移 到 图 像 的 左上 角 的 目的 。 
也 可 以 通过 引入 齐 次 坐标 ， 以 矩阵 形式 改写 这 些 方程 。 在 齐 次 坐标 中 , 用 三 维 向 量 表示 一 个 二 维 
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点 ， 用 四 维 向 量 表示 一 个 三 维 点 (额外 的 坐标 只 是 一 个 任意 的 缩放 因子 ， 即 $， 从 齐 次 坐标 的 三 
维 向 量 中 提取 二 维 坐标 时 要 去 掉 这 个 额外 的 坐标 )。 


改写 后 的 投影 方程 如 下 : 
x| [f/f 0 w 
Ss 0 f, m 
0 0 1 


= 
ll 











je 





第 二 个 矩阵 只 是 一 个 投影 矩阵 。 第 一 个 矩阵 包含 了 相机 的 全 部 参数 ， 称 作 相 机 的 内 部 参数 。 
这 个 3x3 和 矩阵 是 cv::calipbrateCamera 子 数 输出 矩阵 中 的 一 个 。 此 外 还 有 一 个 cv:: 
calibrationMatrixValues 限 数 ， 它 以 校准 矩阵 的 形式 返回 内 部 参数 的 值 。 


一 般 而 言 ， 如 果 坐 标 系 不 是 位 于 相机 投影 的 中 心 , 我 们 就 需要 加 上 一 个 旋转 向 量 (3 x 3 的 矩 
阵 ) 和 一 个 平移 向 量 (3 x 1 的 矩阵 )。 这 两 个 矩阵 描述 了 刚体 变换 。 为 了 变换 回 相 机 的 坐标 系 ， 












































必须 在 三 维 点 上 应 用 刚体 变换 。 于 是 可 以 把 投影 方程 写成 更 通用 的 形式 : 
X 
x 了 和 | 本 2 | 元 
Siyl=I0 f, wilr4 rs r6 212 
1 0 0 17 rg rr9 13 

















我 们 知道 在 这 个 校准 例子 中 ， 坐 标 系统 是 位 于 棋盘 上 的 。 因 此 必须 对 每 个 视图 计算 刚体 变 
换 ( 由 一 个 旋转 量 和 一 个 平移 量 组 成 , 旋转 量 用 矩阵 人 口 r1 到 ”9 表示 , 平移 量 用 41、 刀 和 3 表示 )。 
它们 在 cv: :calibratecamera 国 数 的 输出 参数 列表 中 。 旋 转 和 平移 部 分 通常 称 为 校准 的 外 部 
参数 ， 并 且 对 于 每 个 视图 它们 都 各 不 相同 。 对 于 指定 的 相机 /镜头 ， 内 部 参数 是 不 变 的 。 本 例 基 
于 20 个 棋盘 图 像 进 行 校准 ， 得 到 相机 的 内 部 参数 ， 它 们 是 f=167、f=178、uo=156 和 vo=119。 这 
些 值 是 cv: :calibrateCamera 畏 数 通 过 优化 过 程 获得 的 ， 该 优化 过 程 的 目的 是 找到 内 部 和 外 
部 人 参数， 实现 图 像 点 的 预定 义 位 置 和 实际 位 置 之 间 差距 的 最 小 化 。 其 中 预定 义 位 置 根据 三 维 场 
景点 的 投影 计算 得 到 ， 实 际 位 置 通过 图 像 观 测 得 到 。 校 准 过 程 中 所 有 点 的 这 种 差距 之 和 ， 称 为 


重 投影 误差 。 


现在 我 们 来 看 畸变 参数 。 到 现在 为 止 ， 我 们 一 直 认 为 在 针 孔 相机 模型 下 ， 镜 头 的 影响 是 可 
以 忽略 的 。 但 这 仅 限 于 镜头 在 抓 取 图 像 时 不 会 产生 严重 视觉 畸变 的 情况 。 但 如 果 使 用 劣质 镜头 
或 者 镜头 的 焦距 太 短 ， 情 况 就 不 同 了 。 也 许 你 已 经 注意 到 了 ， 本 例 图 像 中 的 棋盘 图 案 已 经 明显 
变形 了 一 一 矩形 棋盘 的 边线 已 经 扭曲 。 另 外 ， 从 图 像 中 心 移 开 时 ， 畸 变 会 变 得 更 加 严重 。 这 是 
超 广角 镜头 产生 的 典型 畸变 ,， 称 为 径 向 畸变 。 一 般 数 码 相 机 的 镜头 通常 不 会 产生 这 么 高 的 畸变 ， 
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但 是 对 于 本 例 使 用 的 镜头 ， 显 然 是 不 能 忽略 畸变 的 。 


采用 合适 的 畸变 模型 , 可 以 对 这 些 变形 进行 补偿 。 其 原理 是 用 一 系列 数学 公式 表示 因 镜 头 产 
生 的 畸变 。 公 式 在 建立 后 可 以 进行 还 原 ， 以 恢复 图 像 中 可 见 的 畸变 。 幸 好 , 在 校准 阶段 可 以 获得 
纠正 畸变 所 需 的 准确 变换 参数 以 及 其 他 相机 参数 。 完 成 这 个 步 又 后 , 用 刚 校 准 的 相机 拍摄 的 所 有 
图 像 都 不 会 有 畸变 。 因 此 ， 我 们 在 校准 类 中 增加 了 一 个 额外 的 方法 : 

// 去 除 图 像 中 的 畸变 (校准 后 ) 


cV: :Mat CameraCalibrator::remap(const cv::Mat &image) { 








cv::Mat undistorted; 
if (mustInitUndistort) { // 每 个 校准 过 程 调用 一 次 


cv::initUndistortRectifyMap( 
cameraMatrix,， // 计算 得 到 的 相机 算 阵 





distCoeffs, // 计算 得 到 的 时 变 矩 阵 
cv: :Mat (), // 可 选 矫 正 项 (无 ) 

cv: :Mat (), // 生成 无 时 变 的 相机 给 阵 
image.size()， // 无 时 变 图 像 的 尺寸 
CV S21, // 输出 图 片 的 类 型 
mapl, map2); // XxX 和 y 映 射 功能 


mustInitUndistort= false; 


} 


// 应 用 映射 功能 
cvV: :Temap (image, undistorted, mapl, map2, 
CV: :INTER_LINEAR) ; // 播 值 类 型 


return undistorted; 


} 
运行 这 段 代码 后 得 到 如 下 图 像 : 





轩 Undistorted Image 

















可 以 发 现 ， 在 畸变 被 纠正 后 就 得 到 了 有 规则 的 透视 图 。 
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为 了 纠正 畸变 ,OpenCV 使 用 一 个 多 项 式 函数 ,把 图 像 点 移动 到 未 畸变 的 位 置 。 默 认 使 用 5 
个 系数 ， 也 可 以 采用 8 个 系 的 模型 。 得 到 系数 后 就 可 以 计算 两 个 cv: :Mat 类 型 的 映射 函数 (分 
别 用 于 x 坐标 和 yy 坐标 )， 把 有 畸变 的 图 像 上 的 像素 点 映射 到 未 蝴 变 的 新 位 置 。 函 数 
cv: :initUundistortRectifyMap 计 算 映 射 值 ， 函 数 cv: :remap 把 输入 图 像 的 点 映射 到 新 图 像 
上 。 注意 ,因为 是 非 线性 变换 ， 输 入 图 像 中 的 部 分 像素 映射 后 会 超出 输出 图 像 的 边界 。 可 以 扩大 
输出 图 像 的 尺寸 以 弥补 像素 丢失 , 但 是 这 样 的 话 就 需要 填充 在 输入 图 像 中 没有 值 的 输出 像素 ( 它 
们 将 显示 为 黑色 像素 )。 

















10.2.3 扩展 阅读 
在 相机 校准 过 程 中 可 以 使 用 更 多 的 选项 。 
1. 用 已 知 的 内 部 参数 进行 校准 


如 果 可 以 准确 估算 相机 的 内 部 参数 , 那么 将 这 些 参数 输入 函数 cv: : calibratecamera 将 十 
分 有 利 。 它 们 可 作为 优化 处 理 过 程 的 初始 值 。 要 实现 这 一 步 操作 ， 你 只 需 添 加 cvV_CaALIB_USE 
INTRINSIC_GUESS 标 志 , 并 在 校准 矩阵 参数 中 输入 这 些 值 。 也 可 以 把 像 主 点 强制 设 为 某 个 固定 的 
值 (CV_CALIB_FIX_PRINCIPAL_POINT ), 通常 假定 它 就 是 中 心 点 的 像素 。 还 可 以 把 焦距 fx 和 fy 
强制 设 成 某 个 固定 的 比例 (cv_cALIB_FIX_RATIO )。 在 此 情况 下 ,假设 像素 集 是 一 个 正方 形 。 


2. 使 用 圆 形 组 成 的 网 格 进行 校准 


除了 通常 使 用 的 棋盘 图 案 ，OpenCV 还 可 以 使 用 由 圆 形 组 成 的 网 格 进行 相机 校准 。 这 时 就 用 
圆心 作为 校准 点 。 对 应 的 函数 与 前 面 定位 棋盘 角 点 的 函数 非常 类 似 : 













































































cvV::Size boardSize(7,7); 
std: :Vector<CcV: :Point2f> centers; 
bool found = cv:: finqaCirclesGriad( 
image, boardSize, centers); 


10.2.4 ”参阅 


口 10.5 节 将 检查 特殊 情况 下 的 投影 方程 。 
口 Z. Zhang 发 表 在 IEEE Transactions on Pattern Analysis and Machine Intelligence 2000 年 第 22 卷 
第 11 期 的 “A flexible new technique for camera calibration” 是 解决 相机 校准 问题 的 经 典 论文 。 








10.3 ”计算 图 像 对 的 基础 矩阵 


上 一 节 介绍 了 如 何 恢复 单个 相机 的 投影 方程 。 本 节 将 探讨 同一 场景 的 两 幅 图 像 之 间 的 投影 ; 
系 。 可 以 移动 单个 相机 ， 从 两 个 视角 拍摄 两 幅 照片 。 也 可 以 使 用 两 个 相机 ， 分 别 对 同一 个 场景 拍 
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摄 照 片 。 如 果 这 两 个 相机 被 刚性 基线 分 割 ， 我 们 就 称 之 为 立体 视觉 。 


10.3.1 准备 工作 
现在 来 看 两 个 相机 观察 同一 个 场景 点 的 情况 ， 如 下 图 所 示 : 








对 极 线 





我 们 知道 , 沿 着 三 维 点 X 和 相机 中 心 点 之 间 的 连 线 ,可 在 图 像 上 找到 对 应 的 点 x。 反 过 来 , 在 
三 维 空 间 中 ， 与 图 像 平面 上 的 位 置 x 对 应 的 场景 点 可 以 位 于 线条 上 的 任何 位 置 。 这 说 明 如 果 要 根 
据 图 像 中 的 一 个 点 找到 男 一 幅 图 像 中 对 应 的 点 , 就 需要 在 第 二 个 图 像 平 面 上 沿 着 这 条 线 的 投影 搜 
索 。 这 条 虚线 称 为 点 xz 的 对 极 线 。 它 规定 了 两 个 对 应 点 必须 满足 的 基本 条 件 ， 即 对 于 一 个 点 ， 在 
男 一 视图 中 与 它 匹 配 的 点 必须 位 于 它 的 对 极 线 上 , 并 且 对 极 线 的 准确 方向 取决 于 两 个 相机 的 相对 
位 置 。 事实 上 ， 对 极 线 的 结构 决定 了 双 视 图 系统 的 几何 形状 。 


从 这 个 双 视 图 系统 的 几何 形状 中 还 能 发 现 一 个 现象 , 即 所 有 的 对 极 线 都 通过 同一 个 点 。 这 个 
点 对 应 着 一 个 相机 中 心 点 在 男 一 个 相机 上 的 投影 。 这 个 特殊 的 点 称 为 极点 。 


图 像 上 的 点 和 它 的 对 极 线 之 间 的 关系 ， 在 数学 上 可 以 用 下 面 的 3 x 3 矩阵 表示 : 



































1 x 
,|=F 
L 1 











在 投影 几何 学 中 ， 可 以 用 三 维 向 量 表示 二 维 直 线 。 它 就 是 一 些 二 维 点 的 集合 xy)， 满 足 公 
式 I%+Ly+L'=0 (上 标 符号 表示 这 条 线 属于 第 二 幅 图 像 )。 因 此 ， 和 矩阵 严 〈 称 为 基础 矩阵 ) 的 作 
用 就 是 把 一 个 视图 上 的 二 维 图 像 点 映射 到 男 一 个 视图 上 的 对 极 线 上 。 
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10.3.2 ”如 何 实现 


如 果 在 两 个 图 像 之 间 含 有 一 定数 量 的 已 知 匹 配点 , 就 可 以 利用 方程 组 来 计算 图 像 对 的 基础 矩 
阵 。 这 样 的 匹配 项 至 少 要 有 7 对 。 为 了 说 明基 础 矩阵 的 计算 过 程 和 图 像 对 的 用 法 ， 我们 可 人 为 地 
选择 7 对 较 好 的 匹配 项 。 用 OpenCV 卫 数 cv: :findqFundamentalMat 计 算 基 础 矩阵 时 ， 将 使 用 这 
些 匹 配 项 ， 如 下 图 所 示 : 





莫 j Matches 这 

















如 果 已 有 的 图 像 点 是 cv: :keypoint 类 型 的 (例如 第 8 章 的 关键 点 检测 结果 )， 为 了 在 
cv: :findrFundamentalMat 中 使 用 , 需要 先 转换 成 cv: :Point2f 类 型 。 为 此 可 用 下 面 的 OpenCV 





// 把 关键 点 转换 成 Point2f 

stdq: :Vector<CcV::Point2f> selPointsl, selPoints2; 

std: :vector<int> pointIndexesl, pointIndexes2; 

Cv: :KeyPoint::convert (keypointsl1,selPointsl,pointIindexesl1); 
CVv: :KeyPoint::convert (keypoints2,selPoints2,pointIindexes2); 


问 量 selPoints1 和 selPoints2 包 含 了 两 幅 图 像 中 相对 应 的 点 。 关 键 点 实例 是 keypointsl 
和 keypoints2。 向 量 pointIndexesl1 和 pointIndexes2 包 含 被 转换 关键 点 的 序号 。 然 后 调用 
cv::findFundamentalMat 困 数 ， 方 法 如 下 : 


// 用 7 对 匹配 项 计算 基础 矩阵 


cv::Mat fundamental= cv::findqFundqamentalMat ( 





selPoints1l， // 第 一 个 图 像 中 的 7 个 点 
selPoints2, // 第 二 个 图 像 中 的 7 个 点 


CV_FM_7POINT) ; // 7 个 点 的 方法 
要 直观 地 验证 这 个 基础 矩阵 的 效果 ， 可 以 选取 一 些 点 ， 画 出 它们 的 对 极 线 。OpenCV 中 有 一 
个 函数 可 计算 指定 点 集 的 对 极 线 。 计 算出 对 极 线 后 ， 可 用 函数 cv: :1ine 夯 出 它们 。 下 面 的 代码 
片段 完成 了 这 两 个 步骤 〈 即 在 右 侧 图 像 中 计算 和 画 出 来 自 左 侧 图 像 的 对 极 线 ): 


// 在 右 侧 图 像 上 画 出 对 极 线 的 左 侧 点 
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std: :vector<cv: :Vec3f> linesi]l; 
CVv::CcomputeCorrespondEpilines!( 
selPoints1， // 图 像 点 





1 // 在 图 像 1 中 (也 可 以 是 2) 
fundamental，// 基础 矩阵 
lines1); // 对 极 线 的 向 量 


// 遍历 全 部 对 极 线 
for (vector<cv::Vec3f>::const_iterator it= linesl.begin(); 
it!=linesl.end(); ++it) { 
// 画 出 第 一 列 和 最 后 一 列 之 间 的 线条 
cv::line(image2, 
vipPorit (0 CIty [Zl (Lt) IL): 
cv::Point (image2.cols,-((*it) [2]+ 
(*it) [0]*image2.cols)/(*it) [1]), 
Cvicalar(259, 23592550) 


’ 


} 
结果 如 下 图 所 示 : 





| Epilines (2) 一 局 





极点 位 于 所 有 对 极 线 的 交叉 点 , 并 且 它 是 男 一 个 相机 中 心 点 的 投影 。 上 面 的 图 片 中 能 看 到 极 
点 。 对 极 线 的 交叉 点 通常 在 图 像 边界 的 外 面 。 在 我 们 的 例子 中 ， 如 果 两 个 图 像 是 同时 拍摄 的 , 极 
点 就 位 于 能 看 到 第 一 个 相机 的 位 置 。 用 7 对 匹配 项 计算 基础 矩阵 ， 得 到 的 结果 可 能 是 非常 不 稳定 
的 。 事 实 上 ， 如 果 用 一 对 匹配 项 代替 另 一 对 ， 就 会 产生 一 组 明显 不 同 的 对 极 线 。 





























10.3.3 ”实现 原理 

前 面 我 们 解释 过 ， 对 于 图 像 上 的 一 个 点 ， 可 以 根据 基础 矩阵 得 到 一 个 线条 的 方程 式 ， 并 在 这 
个 线条 上 找到 男 一 个 视图 中 与 之 对 应 的 点 。 假 设 点 p( 用 齐 次 坐标 表示 ) 的 对 应 点 为 p'， 两 个 视 
图 间 的 基础 矩 阵 为 F。 由 于 p' 位 于 对 极 线 Fp 上 ， 因 此 可 得 到 如 下 公式 : 
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p” Fp=0 


这 个 公式 表示 两 个 对 应 点 之 间 的 关系 ， 称 为 极 线 约束 。 利 用 这 个 公式 , 就 可 以 根据 已 知 的 匹 
配 项 计算 矩阵 的 人口。 因为 基础 矩阵 的 人口 数量 取决 于 尺度 因子 ， 所 以 需要 计算 的 入 口 只 有 8 个 
(第 9 个 可 以 直接 设置 为 1 )。 每 个 匹配 项 产生 一 个 方程 式 。 有 了 8 个 已 知 匹配 项 ， 就 可 以 通过 对 线 
性 方程 组 的 求解 ， 计 算出 整个 矩阵 。 可 以 通过 在 函数 cv: :findFundamentalMat 中 采用 
CV_FM_8POINT 标 志 来 完成 这 个 过 程 。 注 意 这 时 可 以 ( 最 好 ) 输入 8 个 以 上 的 匹配 项 。 在 均 方 意 
义 下 ， 可 以 解 出 线性 方程 组 的 超 定 系统 。 


计算 基础 矩阵 时 可 以 使 用 一 个 附加 的 约束 条 件 。 从 数学 上 看 , 基础 矩阵 把 一 个 二 维 点 映射 到 
一 个 一 维 的 直线 束 上 ( 即 相交 于 同一 个 点 的 直线 )。 所 有 对 极 线 都 穿 过 同一 个 点 (极点 )， 对 乞 阵 
产生 了 一 个 约束 条 件 。 这 个 约束 条 件 把 计算 基础 矩阵 所 需 的 匹配 次 数 减 少 到 7 次 。 不 过 这 种 情况 
下 , 方程 组 变 为 非 线 性 的 ， 最 多 会 有 三 种 结果 ( 这 时 国 数 cv: :findFundamentalMat 将 返回 9 x 3 
的 基础 和 矩阵， 包含 三 个 3 x 3 和 矩阵 )。 在 OpenCV 中 ， 可 通过 使 用 cv_FM_7POINT 标 志 ， 采 用 7 次 匹 
配方 案 计 算 基 础 矩阵 。 


最 后 要 提 到 的 是 ， 如 果 想 要 精确 地 计算 基础 矩阵 ， 对 匹配 项 的 选择 是 很 重要 的 。 一 般 来 说 ， 
匹配 项 要 在 整 幅 图 像 中 均匀 分 布 , 并 包含 场景 中 不 同 深度 的 点 ,否则 结果 就 会 不 稳定 或 变 差 。 尤 
其 是 如 果 选 择 了 位 于 同一 平面 的 场景 点 ， 基 础 矩阵 ( 本 例 中 ) 就 会 变 差 。 









































































































































10.3.4 ”参阅 


口 R. Hartley 和 A. Zisserman 的 Multiple View Geometry in Computer Vision( 剑桥 大 学 出 版 社 ， 
2004 年 ) 是 有 关 计 算 机 视觉 投影 几何 学 最 完整 的 参考 书 。 

口 下 一 节 将 解释 如 何 用 更 多 的 匹配 项 稳定 地 计算 基础 矩阵 。 

口 如 果 匹 配点 位 于 同一 平面 或 是 纯 旋 转 的 结果 ,就 无 法 计算 基础 矩阵 ，10.5 节 将 解释 其 中 的 
原因 。 














10.4 用 RANSAC 〈 随 机 抽样 一 致 性 ) 算法 匹配 图 像 


两 个 相机 拍摄 同一 个 场景 时 , 会 在 不 同 的 视角 下 看 到 相同 的 元 素 。 我 们 已 经 在 上 一 章 学 过 了 
寺 征 点 匹配 问题 ， 本 节 我 们 来 重新 探讨 这 个 问题 ,并 学 习 如 何 开 发 两 个 视图 之 间 的 极 线 约束 , 使 
图 像 特 征 的 匹配 更 加 可 靠 。 


我 们 遵循 的 原则 很 简单 : 在 匹配 两 幅 图 像 的 特征 点 时 ， 只 接受 位 于 对 极 线 上 的 匹配 项 。 而 要 
判断 这 个 条 件 ， 必 须 先 知道 基础 矩阵 , 但 是 计算 基础 矩阵 前 需要 有 优质 的 匹配 项 。 这 看 起 来 像 是 
“ 先 有 鸡 还 是 先 有 蛋 ” 的 问题 。 本 节 提 出 了 一 种 解决 方案 ， 可 以 同时 计算 基础 矩阵 和 一 批 优质 的 
匹配 项 。 
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10.4.1 ”如 何 实现 


我 们 的 目的 是 计算 两 个 视图 间 的 基础 矩阵 和 优质 0 因此 , 所 有 已 发 现 的 特征 点 的 匹配 
度 都 要 用 上 节 的 极 线 约束 来 验证 。 我 们 为 此 创建 了 一 个 类 ， 封 装 了 重 棒 的 匹配 过 程 的 各 个 步骤 : 























class RobustMatcher { 
private: 
ds 器 对 象 的 指针 
:Ptr<cv: :FeatureDetector> detector; 
1 特征 描述 子 提取 中 对 象 的 指针 
:Ptr<cv: :DescriptorExtractor> extractor; 
i normType; 
float ratio; // 第 一 个 和 第 二 个 NN 之 间 的 最 大 比率 
bool refineF; // 如 果 等 于 rue， 则 会 优化 基础 矩阵 
double distance; // 到 极点 的 最 小 距离 
double confidence; // 可 信 度 (概率 ) 


PUBLLG: 
RobustMatcher (std::string detectorName，// 用 名 称 表示 
std::string descriptorName) 
: normType (cv: :NORM 1L2), ratio(0.8f), 
refineF (true), confidence(0.98), distance(3.0) { 


// 用 名 称 构造 
if (detectorName.length()>0) { 


detector= cv::FeatureDetector::create(detectorName); 
extractor= cv::DescriptorExtractor:: 
create(descriptorName); 


} 





意 这 里 是 如 何 使 用 接 DD cv::FeatureDet ctor 和 cv: :DescriptorExtractor 的 
create 方 法 的 ， 这 样 开 发 者 就 可 以 根据 名 称 选择 合适 的 create 方 法 。 也 可 以 用 获取 方法 


setFeatureDet ctor 和 setDescriptorExtractor 来 指定 create 方 法 。 


核心 方法 是 match， 它 返回 匹配 项 、 被 检测 的 关键 点 和 计算 得 到 的 基础 矩阵 。 方 法 内 部 有 四 
个 独立 的 步骤 (在 代码 中 用 注释 进行 了 明显 的 划分 )， 我 们 将 详细 探讨 : 


// 用 RANSAC 算 法 匹配 特征 点 

// 返回 基础 矩阵 和 输出 的 匹配 项 

cv::Mat match(cv::Mat& image1，cv::Mat& image2，// 输入 图 像 
std: :vector<cV::DMatch>& matches, // 输出 匹配 项 
std: :vector<cv: :KeyPoint>& keypointsil, // 输出 关键 点 
std: :vector<cv: :KeyPoint>& keypoints2) { 






































// 1. 检测 特征 点 
detector->detect (imagel, keypoints1); 
detector->detect (image2, keypoints2); 


2. 提取 特征 描述 子 
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cv::Mat descriptorsl, descriptors2; 
extractor->compute (imagel1,keypointsl,descriptorsl); 
extractor->compute (image2, keypoints2,descriptors2); 


// 3. 匹配 两 幅 图 像 描述 子 
// (用 于 部 分 检测 方法 ) 





// 构造 匹配 类 的 实例 ( 带 交 又 检查 ) 
cv::BFMatcher matcher (normType，// 差 距 衡量 
true); // 交叉 检查 标志 
// 匹配 描述 子 
std: :vector<cv: :DMatch> outputMatches; 
matcher.match(descriptorsl,descriptors2,outputMatches); 


// 4. 用 RANSAC 算 法 验证 匹配 项 
cv::Mat fundaental= ransacTest (outputMatches, 
keypointsl, keypoints2, matches); 


// 返回 基础 矩阵 


return fundamental; 


} 


前 面 两 个 步骤 只 是 检测 特征 点 并 计算 它们 的 描述 子 。 接 下 来 和 上 一 章 一 样 使 用 
cv: :BFEMatcher 类 执行 特征 匹配 。 为 提高 匹配 质量 而 使 用 了 交叉 检查 标志 。 


第 四 个 步骤 是 本 节 介 绍 的 新 概念 。 它 包含 了 一 个 额外 的 过 滤 测 试 , 在 本 例 中 表现 为 使 用 基础 
和 矩阵 来 排除 不 符合 极 线 约束 的 匹配 项 。 这 个 测试 基于 RaANSaAc 算 法 ， 即 使 严 配 项 中 仍 有 局 外 项 ， 
该 算法 仍然 可 以 计算 基础 矩阵 〈 下 一 节 会 解释 这 个 方法 ): 


// 用 RANSAC 算 法 标识 优质 的 匹配 项 

// 返回 基础 矩阵 和 输出 匹配 项 

cv::Mat ransacTest (const std::vector<cv::DMatch>& matches, 
const std::vector<cv: :KeyPoint>& keypoints1l, 
const std::vector<cv::KeyPoint>& keypoints2, 
std::vector<cv::DMatch>& outMatches) { 



































// 关键 点 转换 成 Point2f 类 型 
std: :vector<cv: :Point2f> pointsl, points2; 
for (std::vector<cv: :DMatch>::const_iterator it= 
matches.begin(); it!= matches.end(); ++it) { 


// 取得 左 侧 关键 点 的 位 置 

pointsl.push back (keypointsl [it->queryIdx] .pt); 

// 取得 右 侧 关 键 点 的 位 置 

points2.push_back(keypoints2 [1iL->ttralinIdqx] .pt); 
于 


// 用 RANSRAC 算 法 计算 基础 矩阵 
std::vector<uchar> inliers (pointsl.size(),0); 
cv::Mat fundamental= cv::findFundamentalMat ( 
pointsl,points2，// 匹配 的 点 
inliers, // 匹配 状态 (局 内 项 或 局 外 项 ) 
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CV_FM_RANSAC，// RANSAC 方 法 
distance, // 到 对 极 线 的 距离 
confidence); // 可 信和 度 


// 提取 存留 的 (局 内 ) 匹配 项 
std: :vector<uchar>: :const_iterator itIn= inliers.begin(); 
std: :vector<cv: :DMatch>::const_iterator itM= matches.begin(); 


// 遍历 全 部 匹配 项 
for ( ;itIn!= inliers.end(); ++itIn, ++itM) { 
if (*itIn) { // 有 效 的 匹配 项 
outMatches.push back (*itM); 
} 
} 
return fundamental; 


} 


这 段 代码 比较 长 ， 因 为 在 计算 基础 矩阵 之 前 要 把 关键 点 转换 成 cv: : Point2f 类 型 。 利 用 这 
个 类 ， 重 棒 地 匹配 图 像 对 就 非常 方便 了 ， 调 用 方法 如 下 : 


// 准备 匹配 器 (用 默认 参数 ) 

RobustMatcher rmatcher ("SURF"); // 这 里 使 用 SURE 特 征 

// 匹配 两 幅 图 像 

std: :vector<cv::DMatch> matches; 

std: :Vector<CV: :KeyPoint> keypointsl, keypoints2; 

cv::Mat fundamental= rmatcher.match (imagel, image2, 
matches, keypointsl, keypoints2); 


结果 得 到 62 个 匹配 项 ， 如 下 图 所 示 : 











E Matches 一 口 

















有 趣 的 是 , 除了 几 个 偶尔 会 落 在 基础 矩阵 对 应 的 对 极 线 上 的 错误 匹配 项 ,几乎 所 有 的 匹配 项 1 
都 是 正确 的 。 
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10.4.2 ”实现 原理 


在 上 一 节 我 们 学 过 , 可 以 根据 一 些 特征 点 匹配 项 计算 图 像 对 的 基础 和 矩阵。 为 了 确保 结果 准确 ， 
所 采用 匹配 项 必须 都 是 优质 的 。 但 是 在 实际 情况 中 , 通过 比较 被 检测 特征 点 的 描述 子 得 到 的 匹配 
项 是 无 法 保证 全 部 准确 的 。 正 因为 如 此 ， 人 们 引入 了 基于 RANSAC ( RANdom SAmpling 
Consensus ) 策略 的 基础 矩阵 计算 方法 。 


RANSAC 算 法 旨 在 根据 一 个 可 能 包含 大 量 局 外 项 的 数据 集 , 估算 一 个 特定 的 数学 实体 。 其 原 
理 是 从 数据 集中 随机 选取 一 些 数据 点 ， 并 仅 用 这 些 数据 点 进行 估算 。 选 取 的 数据 点 数量 , 应 该 是 
估算 数学 实体 所 需 的 最 小 数量 。 对 于 基础 矩阵 ， 最 小 数量 是 8 个 匹配 对 (实际 上 只 需要 7 个 , 但 是 
8 个 点 的 线性 算法 速度 较 快 )。 用 这 8 个 随机 匹配 对 估算 基础 矩阵 后 ， 对 剩 下 的 全 部 匹配 项 进行 测 
试 ， 验 证 其 是 否 满足 根据 这 个 矩阵 得 到 的 极 线 约 束 。 标 识 出 所 有 满足 极 线 约 束 的 匹配 项 〈 即 特征 
点 与 对 极 线 距 离 很 近 的 匹配 项 )。 这 些 匹 配 项 就 组 成 了 基础 矩阵 的 支撑 集 。 


RANSAC 算 法 背后 的 核心 思想 是 : 支撑 集 越 大 ， 所 计算 矩阵 正确 的 可 能 性 就 越 大 。 反 之 ,如 
果 一 个 (或 多 个 ) 随机 选取 的 匹配 项 是 错误 的 ,那么 计算 得 到 的 基础 矩阵 也 是 错误 的 , 并 且 它 的 
文 撑 集 肯定 会 很 小 。 反 复 执行 这 个 过 程 ， 最 后 留 下 支撑 集 最 大 的 和 矩阵， 作为 最 佳 结果 。 


因此 我 们 的 任务 就 是 随机 选取 8 个 匹配 项 , 重复 多 次 , 最 后 得 到 8 个 合适 的 匹配 项 , 能 产生 很 
大 的 文 撑 集 。 如 果 在 整个 数据 集中 ， 错 误 匹 配 项 的 数量 不 同 ， 那 么 选取 到 8 个 正确 匹配 项 的 可 能 
性 也 各 不 相同 。 但 是 我 们 知道 , 选取 的 次 数 越 多 ,在 这 些 选项 中 至 少 有 一 组 优质 匹配 的 可 能 性 就 
越 大 。 更 准确 地 说 ,假设 匹配 项 中 局 内 项 ( 优质 匹配 项 ) 的 比例 是 vs， 那么 选取 8 个 优质 匹配 项 
的 概率 就 是 ws。 因 此, 在 一 次 选取 中 至 少 包含 一 个 错误 匹配 项 的 概率 是 (1-w) 。 如 果 选 取 的 次 数 
是 k， 其 中 有 一 次 只 包含 优质 匹配 项 的 选取 的 概率 是 1- (1-w) k。 这 就 是 置信 概率 ， 标 为 c<。 要 得 
到 正确 的 基础 和 矩阵， 需要 至 少 一 个 优质 匹配 集 ， 因 此 我 们 希望 这 个 概率 尽 可 能 的 大 。 所 以 在 运行 
RANSAC 算 法 时 ， 我们 需要 确定 得 到 特定 可 信 度 等 级 所 需 的 选取 次 数 k。 


在 使 用 含有 cvV_FM_RANSAC 标 志 的 函数 cv: :findFundamentalMat 时 ,会 提供 两 个 附加 参 
数 。 第 一 个 参数 是 可 信和 度 等 级 ， 它 决定 了 执行 迭代 的 次 数 ( 默认 值 是 0 .99 )。 第 二 个 参数 是 点 到 
对 极 线 的 最 大 距离 , 小 于 这 个 距离 的 点 被 视 为 局 内 点 。 如 果 匹 配对 中 有 一 个 点 到 对 极 线 的 距离 超 
过 这 个 值 ， 就 视 这 个 匹配 对 为 局 外 项 。 这 个 函数 返回 字符 值 的 sta: :vector， 表 示 对 应 的 输入 
匹配 项 被 标记 为 局 外 项 (0 ) 或 局 内 项 (1 )。 


匹配 集中 优质 匹配 项 越 多 , RANSAC 算 法 得 到 正确 基础 矩阵 的 概率 就 越 大 。 因 此 我 们 在 匹配 
特征 点 时 使 用 了 交叉 检查 过 滤器 。 还 可 以 使 用 上 节 介 绍 的 比率 测试 , 进一步 提高 最 终 匹 配 集 的 质 
量 。 这 是 一 个 互相 权衡 的 问题 ， 要 考虑 这 三 点 : 计算 复杂 度 、 最 终 匹 配 项 数量 、 要 得 到 仅 包含 准 
确 匹 配 项 的 匹配 集 所 需 的 可 信和 度 等 级 。 
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10.4.3 扩展 阅读 








本 节 介 绍 的 鲁 棒 匹 配 过程 ， 即 利用 拥有 最 大 文 架 的 8 个 被 选 匹配 项 以 及 该 支撑 集 所 包含 的 匹 





1. 改进 基础 矩阵 








配 项 计算 基础 矩阵 , 然后 得 到 基础 矩阵 的 估算 值 。 利用 这 个 信息 , 有 两 种 方法 可 以 改进 这 些 结果 。 








现在 我 们 已 经 有 了 高 质量 的 匹配 项 ， 最 好 的 办 法 就 是 在 最 后 用 全 部 匹配 项 重新 估算 基础 矩 














阵 。 我们 已 经 注意 到 ， 有 一 种 线性 的 8 点 算法 可 以 估算 这 个 和 矩阵。 因此 可 以 得 到 一 个 超 定 方程 组 ， 


求 得 最 小 二 乘法 形式 的 基础 矩阵 。 可 以 在 ransacTest 气 数 的 后 面 添加 这 个 步骤 : 


if (refineF) { 
// 用 全 部 认可 的 匹配 项 重新 计算 基础 矩阵 
// 把 关键 点 转换 成 Point2f 类 型 
pointsil.clear (); 


points2.clear (); 


for (std::vector<cv::DMatch>:: 


const_iterator it= outMatches.begin(); 


it!= outMatches.end(); ++it) { 


// 取得 左 侧 关键 点 的 位 置 


pointsl.push back (keypointsl [it->queryIdx] .pt); 


// 取得 右 侧 关键 点 的 位 置 


points2.push _ back (keypoints2[it->trainIdx] .pt); 


上 


// 根据 全 部 认可 的 匹配 项 ， 计 算 8 个 点 的 基础 矩阵 
fundamental= cv::findFundamentalMat ( 
pointsl,points2，// 匹配 点 


CV_FM_8POINT); // 8 个 点 的 方法 ， 用 奇异 值 分 解 (SVD) 求解 


} 





实际 上 cv: :findqFundamentalMat 国 数 可 以 通过 
个 以 上 的 匹配 项 。 


2. 改进 匹配 项 


奇异 值 分 解 求解 线性 方程 组 的 方式 ,接受 8 





我 们 知道 在 双 视 图 系统 中 , 每 个 点 肯定 位 于 与 它 对 应 的 点 的 对 极 线 上 。 这 就 是 基础 矩阵 所 表 
示 的 极 线 约 束 。 因 此 ， 如 果 已 经 有 了 很 准确 的 基础 矩阵 ， 就 可 以 利用 极 线 约束 来 更 正 得 到 的 匹配 
项 ， 具 体 做 法 是 将 强制 匹配 项 置 于 它们 的 对 极 线 上 。 使 用 OpenCV 函 数 cv: :correctMatches 可 




















以 很 方便 地 实现 这 个 功能 : 


std: :vector<cv::Point2f> newPointsl1l, newPoints2; 


// 改进 匹配 项 


correctMatches (fundamental, // 基础 矩阵 
pointsl, points2, // 原始 位 置 
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newPointsl，newPoints2); // 新 位 置 


这 个 函数 修改 每 个 对 应 点 的 位 置 ， 从 而 在 最 小 化 累积 (平方 ) 位 移 时 能 满足 极 线 约束 。 


10.5 “计算 两 幅 图 像 之 间 的 单 应 矩阵 


10.2 节 介绍 了 用 匹配 项 计算 图 像 对 的 基础 矩阵 的 方法 。 在 投影 几何 学 中 ,还 有 一 种 非常 实用 
的 数学 实体 。 这 个 实体 可 以 用 多 视图 影像 计算 ， 是 一 个 具有 特殊 性 质 的 矩阵 。 


























10.5.1 准备 工作 


这 次 我 们 仍 考虑 三 维 点 和 它 在 相机 中 的 影像 之 间 的 投影 关系 ，10.1 节 曾 介绍 过 。 我 们 知道 这 
个 公式 的 本 质 是 利用 相机 内 部 参数 和 相机 的 位 置 ( 用 旋转 分 量 和 平移 分 量 表示 )， 建 立 三 维 点 和 
它 的 影像 之 间 的 关联 关系 。 仔细 研究 这 个 公式 , 会 发 现 有 两 种 特殊 情况 需要 我 们 注意 。 第 一 种 情 
况 ， 即 同一 场景 的 两 个 视图 之 间 差 别 只 有 纯 旋 转 。 这 时 外 部 矩阵 的 第 四 列 全 部 变 为 0 ( 即 没 有 平 


移 量 ): 
雹 
中 | 了 | = 
1 


于 是 在 这 种 特殊 情况 下 ， 投 影 关 系 就 变 为 3x3 的 矩阵 。 如 果 拍 摄 目标 是 一 个 平面 ， 也 会 出 现 
类 似 的 有 趣 现象 。 这 种 特殊 情况 下 ， 我 们 可 以 假设 平面 上 的 点 都 位 于 z=0 的 位 置 ， 这 样 仍 能 保持 
通用 性 。 最 终 得 到 下 面 的 公式 : 














xX 
ff 0 wlrl r2 r3 0 让 
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场景 点 中 值 为 0 的 坐标 会 消除 掉 投 影 矩 阵 的 第 三 列 ， 从 而 又 变 成 一 个 3 x 3 的 矩阵。 这 种 特殊 
矩阵 称 为 单 应 矩阵 (homography )， 表 示 在 特殊 情况 下 ( 这 里 是 纯 旋 转 或 平面 目标 )， 点 和 它 的 影 
像 之 间 是 线性 关系 ， 格 式 如 下 : 
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其 路 是 一 个 3 x 3 矩阵。 这 个 关系 式 包含 了 一 个 太 度 因子 ， 用 s 表 示 。 计 算得 到 这 个 矩阵 后 ， 
一 个 视图 中 的 所 有 点 都 可 以 根据 这 个 关系 式 转换 到 男 一 个 视图 。 需要 注意 的 是 , 在 使 用 单 应 矩阵 
关系 式 后 ， 基 础 矩阵 就 没有 意义 了 。 


10.5.2 ”如 何 实 现 


假设 我 们 有 两 幅 图 像 , 它们 的 差别 在 于 纯 旋 转 量 。 如 果 你 一 边 转动 自己 一 边 对 建筑 物 或 风景 
拍照 ， 就 会 出 现 这 种 情况 。 只 要 拍摄 者 与 目标 的 距离 足够 远 , 平移 量 就 可 以 忽略 不 计 。 可 以 选取 
特征 点 , 使 用 cv: :BFMatcher 函 数 匹配 这 两 幅 图 像 。 跟 上 节 一 样 , 接 下 来 我 们 对 此 应 用 RANSAC 
算法 ， 这 次 包含 基于 匹配 集 ( 显然 有 大 量 的 局 外 项 ) 估算 单 应 矩阵 的 步 又 。 该 步骤 通过 
cv: :findqHomography 国 数 实现 ， 和 cv: :findqFundamentalMat 国 数 很 相似 ; 











// 找到 图 像 1 和 图 像 2 之 间 的 单 应 矩阵 
std: :vector<uchar> inliers (pointsl.size(),0); 
cv::Mat homography= cv::findHomography ( 
pointsl，points2，// 对 应 的 点 
inliers, // 输出 的 局 内 匹配 项 
CV_RANSAC，// RANSAC 方 法 
ei) // 到 重复 投影 点 的 最 大 距离 


这 里 有 单 应 矩阵 〈 而 不 是 基础 矩阵 )， 是 因为 两 幅 图 像 的 差距 为 纯 旋 转 量 。 下 面 展示 了 这 两 
幅 图 像 ， 同 时 展示 了 用 inliers 参 数 识别 出 的 局 内 关键 点 。 参 见 下 图 : 








口 


大 Image 1 Homography Points 
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第 二 幅 图 像 为 : 





| Image 2 Homography Points 一 














前 面 画 出 了 依据 单 应 矩阵 得 到 的 局 内 点 ， 用 的 是 下 面 的 循环 代码 : 


// 画 出 局 内 点 

std: :vector<cv: :Point2f>::const_iterator itPts= 
pointsl.begin(); 

std: :vector<uchar>: :const_iterator itIn= inliers.begin(); 

while (itPts!=pointsl.end()) { 





// 在 每 个 局 内 点 的 位 置 画 一 个 贺 
if (*itIn) 
cv::circle(imagel,*itPts,3, 
CVvirocalar(2552957255).)3 
++itPts; 
++itIn; 


} 


单 应 矩阵 是 一 个 3 x 3 的 可 逆 和 矩阵。 因此 , 在 计算 单 应 矩阵 后 ,就 可 以 把 一 幅 图 像 的 点 转移 到 
男 一 幅 图 像 。 实际 上 ,图像 中 的 每 个 像素 都 可 以 转移 。 因此 可 以 把 整 幅 图 像 迁 移 到 为 一 幅 图 像 的 
的 视点 上 。 这 个 过 程 称 为 图 像 拼 接 ， 常 用 于 根据 多 幅 图 像 构 建 一 幅 大 型 全 景 图 。OpenCV 中 有 一 
个 函数 能 实现 这 个 功能 ， 用 法 如 下 : 

// 担 曲 图 像 1 到 图 像 2 


cv::Mat result; 
cv::warpPerspective(image1， // 输入 图 像 
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result， // 输出 图 像 
homography, // 单 应 矩阵 
cvV::Size(2ximage1.cols， 

imagel.rows)); // 输出 图 像 的 尺寸 


得 到 新 图 像 后 ， 可 以 把 它 附 加 到 男 一 幅 图 像 上 以 扩展 视角 ( 因为 现在 两 幅 图 像 的 视角 是 相 
同 的 ); 








// 把 图 像 1 复 制 到 完整 图 像 的 第 一 个 半边 
cv::Mat half(zresult,cv::Rect(0,0,image2.cols,image2.rows) ) : 
image2 .copyTo (half); // 把 image2 复 制 到 imagel1 的 ROI 区 域 


结果 如 下 图 所 示 : 











国 Image mosaic 














10.5.3 ”实现 原理 


如 果 两 个 视图 通过 单 应 矩阵 互相 关联 , 就 可 以 检测 一 副 图 像 中 特定 的 场景 点 在 另 一 幅 图 像 中 
的 位 置 。 如 果 一 幅 图 像 中 的 点 对 应 到 另 一 幅 图 像 后 超出 了 边界 范围 ， 这 种 性 质 就 显得 尤其 有 趣 。 
实际 上 ,由 于 第 二 个 视图 中 有 一 部 分 场景 在 第 一 个 视图 中 是 不 可 见 的 ,因此 可 以 用 单 应 矩阵 , 通 
过 读 取 男 一 幅 图 像 中 额外 的 像素 点 的 颜色 值 来 扩展 图 像 。 这 样 我 们 就 能 通过 扩充 第 二 幅 图 像 得 到 
新 的 图 像 ， 此 时 新 图 像 的 右 侧 会 添加 额外 的 列 。 


用 函数 cv: :findHomography 计 算得 到 的 单 应 矩阵 ， 把 第 一 幅 图 像 的 点 映射 到 第 二 幅 图 像 
的 点 。 计算 单 应 矩阵 时 至 少 需 要 四 个 匹配 项 , 并 上 且 它 也 使 用 了 RANSAC 算 法 。 在 找到 具有 最 佳 支 
撑 集 的 单 应 矩阵 后 ，cv: : findHomography 方 法 就 会 用 全 部 识别 到 的 局 内 项 对 它 进行 优化 。 


现在 要 把 图 像 1 的 点 迁移 到 图 像 2， 需 要 做 的 实际 上 就 是 反 转 单 应 和 矩阵。 这 正 是 函数 
cv: :warpPerspective 的 默认 算法 , 即 利 用 输入 的 反 转 单 应 矩阵 取得 输出 图 像 中 每 个 像素 的 颜 
色 值 (这 就 是 第 2 章 中 的 反 向 映射 )。 如 果 迁 移 的 输出 像素 超出 了 输入 图 像 的 范围 ,就 把 这 个 像素 
设置 为 黑色 (0 )。 如 果 要 在 转移 像素 的 过 程 中 直接 使 用 单 应 矩阵 ， 而 不 是 反 转 矩阵 ， 就 可 以 在 函 
数 cv: :warpPerspective 的 第 五 个 可 选 参数 中 指定 cv: :WARP_INVERSE_MAP 标 志 。 
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10.5.4 扩展 阅读 
同一 平面 的 两 幅 图 像 之 间 也 存在 单 应 矩阵。 我 们 可 以 用 它 来 识别 图 像 中 的 平面 物体 。 
检测 图 像 中 的 平面 目标 


假定 我 们 需要 检测 图 像 中 存在 的 平面 物体 。 这 个 物体 可 能 是 一 张 海 报 、 一 幅 画 、 一 个 标牌 、 
一 本 书 的 封面 (下面 的 例子 )， 等 等 。 利 用 本 章 学 到 的 知识 ， 我 们 采取 的 方法 是 检测 这 个 物体 的 
特征 点 , 然后 试 着 在 图 像 中 匹配 这 些 特征 点 。 然 后 用 和 鲁 棒 匹配 方案 来 验证 这 些 匹 配 项 ,这 个 方案 
与 上 一 节 的 类 似 , 但 这 次 是 基于 单 应 矩阵 的 。 



































定义 一 个 TargetMatcher 类 ， 它 与 RobustMatcher 非 常 相似 : 
class TargetMatcher { 
private: 


// 特征 点 检测 器 对 象 的 指针 

CVv::Ptr<cv: :FeatureDetector> detector; 

// 特征 描述 子 提取 器 对 象 的 指针 

Cv::Ptr<cv: :DescriptorExtractor> extractor; 
cv::Mat target; // 目标 图 像 

int normType; 

double distance; // 最 小 重 投影 误差 


这 里 只 是 增加 了 一 个 target 属 性 ， 表 示 被 匹配 的 平面 物体 的 参考 图 像 。 这 些 匹 配方 法 与 
RobustMatcher 类 中 的 方法 是 一 样 的 。 区 别 在 于 它们 在 ransacTest 方 法 中 包含 了 
cv: :findHomography， 而 不 是 cv: :findqFundamentalMat。 另 外 还 增加 了 一 个 方法 来 初始 化 
匹配 目标 ， 并 找到 目标 的 位 置 : 


// 检测 图 像 中 定义 的 平面 物体 

// 返回 单 应 和 矩阵 

// 被 检测 目标 的 4 个 角 点 ， 以 及 匹配 项 和 关键 点 

cv::Mat detectTarget (const cv::Mat& image， 
// 目标 角 点 的 位 置 ( 顺 时 针 方向 ) 
std: :vector<cv: :Point2f>& detectedCorners, 
std::vector<cv: :DMatch>& matches, 
std: :vector<cv: :KeyPoint>& keypoints1l, 
std: :vector<cv: :KeyPoint>& keypoints2) { 





























// 找到 目标 和 图 像 之 间 的 RANSAC 单 应 和 矩阵 
cvV: :Mat homography= match (target, image,matches, 
keypointsl, keypoints2); 








// 目标 角 点 

stdq: :vector<cv::Point2f> corners; 

corners.push back(cv::Point2f (0,0)); 

corners.push back(cv::Point2f (target.cols-1,0)); 
corners.push back(cv::Point2f (target.cols-1,target.rows-1)); 
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corners.push back (cv::Point2f (0,target.rows-1)); 


// 重新 投射 目标 角 点 
Cv::perspectiveTransform(corners,detectedCorners, 

homography); 
return homography; 


} 


在 用 匹配 方法 得 到 单 应 矩阵 后 ， 我 们 就 能 定义 目标 的 四 个 角 点 ( 即 参 考 图 像 的 四 个 角 点 )。 
然后 用 cv: :perspectiveTransform 清 数 把 这 些 角 点 转移 到 图 像 中 。 这 个 函数 只 是 用 单 应 矩阵 
放大 输入 向 量 中 的 每 个 点 。 这样 就 得 到 了 这 些 点 在 男 一 幅 图 像 中 的 坐标 。 然后 用 下 面 的 方法 进行 
目标 匹配 : 

// 准备 匹配 器 


TargetMatcher tmatcher ("FAST", "FREAK"); 
tmatcher.setNormType (cv: :NORM HAMMING); 


























// 定义 输出 数据 

std: :vector<cv: :DMatch> matches; 

std: :Vector<CcV: :KeyPoint> keypointsl, keypoints2; 
std: :vector<cv: :Point2f> corners; 

// 参考 图 像 
tmatcher.setTarget (target); 

// 匹配 图 像 与 目标 
tmatcher.detectTarget (image, corners,matches, 
keypointsl1,keypoints2); 





// 画 出 图 像 中 的 目标 角 点 


Cv::Point pt= cv::Point (corners{[0]); 





cv::line(image,cv::Point (corners[0]),cv::Point (corners[1]), 
vCalar (2092097255) 3) 
cv::line(image,cv::Point (corners{[1]),cv::Point (corners[2]), 
Vs Salar(2 0 299 7 25) 3) 
cv::line(image,cv::Point (corners{[2]),cv::Point (corners[3]), 
CVSealar(259299255) 23) 
cv::line(image,cv::Point (corners[3]),cv::Point (corners[0]), 


eve Sealar (259y.259)259)3)> 


用 cv: :drawMatches 子 数 显示 结果 ， 如 下 图 所 示 : 








mn Matches 
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我 们 还 可 以 用 单 应 矩阵 来 修改 平面 物体 的 透视 图 。 例 如 , 有 几 幅 从 不 同 视 角 拍 摄 建 筑 物 正 面 
的 照片 , 可 以 计算 这 些 图 像 之 间 的 单 应 矩阵 ,并 且 用 本 闻 的 方法 扭曲 并 组 合 图 像 ， 从 而 构建 出 建 














筑 物 正面 的 大 型 全 景 图 。 计 算 单 应 矩阵 时 至 少 需要 两 个 视图 之 间 的 四 个 匹配 点 。 可 以 使 用 











cv::getPerspectiveTransform 国 数 ， 从 四 个 对 应 点 进行 这 样 的 变换 。 





10.5.5 “参阅 


口 2.8 节 讨论 了 反 向 映射 的 概念 。 

口 M.Brown 和 D.Lowe 发 表 在 International Journal of Computer Vision( 2007 年 1 
的 “Automatic panoramic image stitching using invariant features” 描 述 了 用 多 
景 图 的 完整 方法 。 
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处 理 视频 序列 








本 章 包 括 以 下 内 容 : 


口 读 取 视 频 序 列 ; 

口 处 理 视频 帧 ; 

口 写 人 视频 帧 ; 

口 跟踪 视频 中 的 特征 点 ; 

口 提取 视频 中 的 前 景物 体 。 





11.1 简介 




















视频 信号 是 重要 的 视觉 信息 来 源 。 视 频 由 一 系列 图 像 构成 ,这 些 图 像 称 为 帧 ， 帧 是 以 固定 的 
时 间 间 隔 获取 的 〈 称 为 帧 速率 ， 通 常用 帧 /秒表 示 )， 据 此 可 以 显示 运动 中 的 场景 。 随 着 高 性 能 计 
算 机 的 出 现 , 现在 已 经 能 够 对 视频 序列 进行 高 级 的 视觉 分 析 一 一 被 分 析 的 帧 速率 可 以 接近 甚至 超 
过 实际 视频 的 帧 速率 。 本 章 介绍 如 何 读 取 、 处 理 和 存储 视频 序列 。 

我 们 将 看 到 ,如果 从 视频 序列 中 提取 出 独立 的 帧 ,就 可 以 使 用 本 书 介绍 的 各 种 图 像 处 理 函 数 。 
此 外 我 们 将 学 习 几 种 对 视频 序列 做 时 序 分 析 的 算法 , 为 跟踪 物体 而 比较 相 邻 的 帧 或 者 为 提取 前 景 
物体 而 在 时 间 上 累计 图 像 统 计数 据 。 

















11.2 ” 读 取 视频 序列 


要 处 理 视 频 序 列 ， 首 先 要 读 取 每 个 帧 。OpenCV 提 供 了 一 个 便于 使 用 的 框架 来 提取 帧 ， 帧 的 
来 源 可 以 是 视频 文件 ， 也 可 以 是 USB 或 耳 摄像 机 。 本 节 将 介绍 它 的 用 法 。 



































11.2.1 ”如 何 实现 


总 体 来 说 , 要 从 视频 序列 读 取 帧 ,只 需 创建 一 个 cv: :Videocapture 类 的 实例 , 然后 在 一 个 
循环 中 提取 并 读 取 每 个 视频 帧 。 下 面 这 个 基本 的 main 函 数 显示 了 视频 序列 中 的 帧 : 











234 第 11 章 ”处理 视频 序列 





int main() 
{ 
// 打开 视频 文件 
CVv::VideoCapture capture ("bike.avi"); 
// 检查 打开 是 否 成 功 
if (!capture.isOpened()) 
return 1; 


// 取得 帧 速率 
double rate= capture.get (CV_CAP_PROP_FPS) ; 


bool Stop (false) ; 
cvV::Mat frame; // 当前 视频 帧 
cv: :namedWindow ("Extracted Frame"); 


// 根据 帧 速率 计算 帧 之 间 的 等 待 时 间 ， 单 位 ms 
int delay= 1000/rate; 


// 循环 遍历 视频 中 的 全 部 帧 
while (!stop) { 


// 读 取 下 一 帧 (如 果 有 ) 
if (!Ccapture.read(frame) ) 
break; 


cv::imshow ("Extracted Frame",frame); 


// 等 待 一 段 时 间 ， 或 者 通过 按键 停止 
if (cvV::waitKey (delay)>=0) 
stop= true; 


// 关闭 视频 文件 

// 不 是 必需 的 ， 因 为 类 的 析 构 溃 数 会 调用 
capture.release(); 

return 0; 


} 
程序 会 显示 一 个 播放 视频 的 窗口 ， 如 下 图 所 示 : 





盏 Extracted Frame 一 
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11.2.2 ”实现 原理 


只 需 指定 视频 文件 名 即 可 打开 视频 ,可 以 在 cv: :Videocapture 对 象 的 构造 函数 中 指定 文件 
名 。 如 果 cv: :Vidqeocapture 对 象 已 经 创建 ， 也 可 以 使 用 它 的 open 方 法 。 成 功 打开 视频 后 (可 
用 isopened 方 法 验证 )， 就 可 以 开始 提取 帧 。 也 可 使 用 get 方 法 并 采用 正确 的 标志 ， 通 过 
cv::Videocapture 对 象 查询 视频 文件 的 有 关 信 息 。 前 面 的 例子 中 ， 我 们 用 cvV_CaAP_PROP_FPS 
标志 获得 帧 速率 。 因 为 它 是 一 个 通用 函数 ,所 以 即使 有 的 时 候 需 要 其 他 类 型 ， 它 也 总 会 返回 一 个 
double 类 型 的 数值 。 例 如 可 用 下 面 的 方法 获得 视频 文件 的 总 帧 数 ( 整数 ): 


























long t= static cast<long>( 
capture.get (CV_CAP_ PROP_ FRAME_COUNT) ) ; 


要 了 解 能 从 视频 获得 的 信息 类 型 ， 请 查阅 OpenCV 文 档 提供 的 各 种 标志 。 


此 外 还 可 以 用 set 方 法 输入 cv: :Videocapture 实 例 的 参数 。 例如 可 以 用 cvVv_CAP_PROP_ 
POS_FRAMES 标 志 ， 让 视频 跳 转 到 指定 的 帧 : 
// 跳 转 到 第 100 帧 


double position= 100.0; 
capture.set (CV_CAP_PROP_POS_FRAMES, position); 


还 可 以 用 cvV_CAP_PROP_POS_MSEC 以 毫秒 为 单位 指定 位 置 ， 或 者 用 cvV_CAP_PROP_POS 
AVI_RATIO 指 定 视频 内 部 的 相对 位 置 ( 0.0 表 示 视 频 开 始 位 置 ，1.0 表 示 结 束 位 置 )。 如 果 参 数 设置 
成 功 ， 取 数 会 返回 true。 对 于 一 个 特定 的 视频 来 说 ， 参 数 能 否 读 取 或 设置 ， 在 很 大 程度 上 取决 
于 用 来 压缩 和 存储 视频 序列 的 编 解码 器 。 如 果菜 些 参数 不 能 使 用 ， 可 能 就 是 由 编 解 码 器 造成 的 。 


在 成 功 地 打开 视频 后 ， 可 以 像 前 面 的 例子 那样 反复 调用 read 方 法 ， 按 顺序 访问 每 一 帧 。 也 
可 调用 重 载 的 读 取 运 算 子 ， 作 用 完全 一 样 ; 
Capture >> frame; 


还 能 使 用 这 两 个 基本 方法 : 


















































capture.grab(); 
capture.retrieve (frame); 


注意 我 们 在 显示 每 一 帧 时 所 采用 的 延 时 方法 ,使 用 了 cv: :waitKey 函 数 。 这 里 采用 的 延 时 
时 长 取决 于 视频 的 帧 频率 ( 假设 Eps 为 每 秒 的 帧 数 ，1000/fEps 就 是 两 个 帧 之 间 的 毫秒 数 )。 可 以 
通过 修改 这 个 数值 ,证 视频 慢 进 或 快 进 。 在 播放 视频 时 有 一 点 很 重要 ， 就 是 采用 的 延 时 时 长 要 保 
证 窗口 有 足够 的 时 间 进 行 刷新 〈 因为 这 是 一 个 低 优 先 级 的 进程 ， 如 果 CPU 太 忙 就 不 会 刷新 )。 使 
用 cv: :waitKey 函 数 ， 可 以 通过 按 任意 键 中 断 这 个 读 取 过 程 。 这 时 ， 函 数 会 返回 按键 的 ASCII 
码 。 注 意 ， 如 果 cv: :waitKey 函 数 中 指定 的 延 时 为 0， 那么 它 将 永远 等 待 下 去 ， 直 到 用 户 按 下 一 
个 键 。 这 种 方法 非常 适用 于 需要 通过 逐 帧 检查 以 跟踪 一 个 过 程 的 情况 。 
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最 后 的 语句 调用 release 方 法 关闭 视频 文件 。 不 过 这 并 不 是 必需 的 ， 因 为 在 cv: :Video 
Capture 的 析 构 函数 中 也 会 调用 release。 


有 一 点 需要 特别 注意 ,电脑 中 必须 安装 有 相关 的 编 解码 器 ， 才 能 打开 指定 的 视频 文件 ,否则 
cv: :VideoCapture 将 无 法 对 文件 进行 解码 ,一 般 来 说 , 如 果 用 视频 播放 器 ( 例如 Windows Media 
Player ) 可 以 打开 该 视频 文件 ， 那 么 OpenCV 也 能 读 取 它 。 








11.2.3 扩展 阅读 


还 可 以 连接 摄像 机 和 电脑 ， 读 取 摄 像 机 (例如 USB 摄 像 机 ) 捕获 的 视频 流 。 只 需 在 open 耳 
数 中 指定 一 个 ID 〈 整 数 )， 取 代 原 来 的 文件 名 。ID 为 0 表示 打开 默认 摄像 机 。 这 种 情况 下 就 必须 
用 cv: :waitKey 函 数 来 终止 处 理 过 程 ， 因 为 摄像 机 视频 流 的 读 取 过 程 是 不 会 结束 的 。 


最 后 ， 也 可 以 装载 Web 上 的 视频 。 需 要 提供 一 个 正确 的 网 址 ， 例 如: 









































cv::VideoCapture capture("http://www.laganiere.name/bike.avi"); 


11.2.4 ”参阅 


口 11.4 节 更 详细 地 介绍 了 视频 编 解 码 需 。 
口 网 站 http:/fftimpeg.org/ 上 有 音频 /视频 读 取 、 记 录 、 转 换 和 成 流 的 完整 源码 和 跨 平 台 解 决 方案 。 





11.3 ”处 理 视频 帧 


本 节 的 目标 ， 是 针对 视频 序列 中 的 每 一 帧 应 用 几 个 处 理 函 数 。 我 们 创建 一 个 自 定义 类 ， 封 
狐 OpenCV 的 视频 捕获 框架 。 此 外 可 以 在 这 个 类 中 指定 一 个 函数 , 每 次 提取 到 新 的 帧 时 就 会 调用 
该 函数 。 

















11.3.1 ”如何 实现 


我 们 要 指定 一 个 函数 ( 回调 函数 )， 视 频 序列 的 每 一 帧 都 会 调用 它 。 该 函数 定义 为 输入 一 个 
cv: :Mat 实 例 ， 输 出 一 个 处 理 完 毕 的 帧 。 因 此 ， 框 架 中 有 效 的 回调 函数 必须 遵循 以 下 签名 : 














void processFrame (cvV: :Mat& img，cv::Mat& out); 


作为 处 理 函 数 的 例子 ,我 们 来 看 下 面 这 个 简单 的 函数 , 它 的 功能 是 计算 输入 图 像 的 Canny 边 缘 : 





void canny (cv::Mat& img, cv::Maté& out) { 
// 转换 成 灰 度 图 像 
if (img.channels()==3) 
Cv: :CVvtColor (img,out,CV_BGR2GRAY); 
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// 计算 Canny 边 缘 

Cr anny (tot out. 4D Dy 200)s 

// 反 转 图 像 

cv::threshold(out,out,128,255,cv::THRESH_ _ BINARY_INV) ; 
} 


自 定义 类 VigqeoProcessor 完 整地 封装 了 视频 处 理 任务 。 使 用 这 个 类 的 程序 可 以 创建 类 的 实 
例 、 指 定 输入 图 像 文件 、 指 定 回 调 函 数 ， 然 后 开始 处 理 。 编 程 时 这 些 步 又 都 是 用 这 个 自 定义 类 实 
现 的 ， 代 码 如 下 : 


// 创建 实例 

VideoProcessor processor; 

// 打开 视频 文件 

processor.setIinput ("bike.avi"); 

// 声明 显示 视频 的 窗口 
processor.displayInput ("Current Frame"); 
processor.displayOutput ("Output Frame"); 
// 用 原始 帧 速率 播放 视频 

processor.setDelay (1000./processor.getFrameRate()); 
// 设置 处 理 帧 的 回调 函数 
processor.setFrameProcessor (Canny) 

// 开始 处 理 


processor.run(); 


运行 这 段 代 码 , 会 在 两 个 窗口 中 播放 输入 图 像 和 输出 结果 ,播放 速率 为 原始 帧 速率 ( 因为 用 
setDelay 方 法 做 了 延 时 处 理 )。 如 果 输 入 上 节 用 于 显示 帧 的 视频 ,输出 窗口 如 下 : 














Im OutputVideo 一 口 
> 一 cy 
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11.3.2 ”实现 原理 





























用 于 控制 处 理 视 频 帧 的 各 种 参数 : 


class VideoProcessor { 
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private: 


// OpenCV 视 频 捕获 对 象 
cv::VideoCapture capture; 

// 处 理 每 一 巾 时 都 会 调用 的 回调 涵 数 

void (*process) (cv::Mat&, cv::Matg&); 
// 布尔 型 变量 ， 表 示 该 回调 函数 是 否 会 被 调用 
bool callIt; 

// 输入 窗口 的 显示 名 称 

std::string windowNameInput; 

// 输出 窗口 的 显示 名 称 

std::string windowNameOutput; 

// 帧 之 间 的 延 时 

int delay; 

// 已 经 处 理 的 帧 数 

long fnumber; 

// 达到 这 个 帧 数 时 结 

long frameToStop 

// 结束 处 理 

bool stop; 


第 一 个 成 员 变 量 是 cv: :VideoCcapture 对 象 。 第 二 个 属性 是 函数 指针 process, 它 指向 一 个 
回调 函数 。 可 以 用 对 应 的 获取 方法 指定 这 个 函数 : 

// 设置 针对 每 一 帧 调用 的 回调 函数 

void setFrameProcessor ( 


void (*frameProcessingCallback) 
Cv::Mat&, cv::Mat&)) { 








process= frameProcessingCallback; 


} 
下 面 的 方法 打开 视频 文件 : 


// 设置 视频 文件 的 名 称 
bool setInput (std::string filename) { 


fnumber= 0; 

// 防止 已 经 有 资源 与 VideoCapture 实 例 关联 
capture.release(); 

// 打开 视频 文件 

return capture.open (filename); 


} 
显示 经 过 处 理 的 帧 通常 会 比较 有 趣 。 因 此 我 们 用 两 个 方法 来 创建 显示 窗口 : 


// 用 于 显示 输入 的 帧 
void displayInput (std::string wn) { 











windowNameInput= wn; 
cv: :namedWindow (windowNameInput); 


} 
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// 用 于 显示 处 理 过 的 帧 
void displayOutput (std::string wn) { 


windowNameOutput= wn; 
Cv: :namedWindow (windowNameOutput); 


} 
主 函 数 名 为 run， 它 包含 了 提取 帧 的 循环 : 


// 抓 取 (并 处 理 ) 序列 中 的 帧 


voiqd run() { 


// 当前 帧 
cv::Mat frame; 
// 输出 帧 


Cv::Mat output; 


// 如 果 没 有 设置 捕获 设备 
if (!isOpened()) 
return; 


stop= false; 
while (!isStopped()) { 


// 读 下 一 帧 (如 果 有 ) 
if (!readNextFrame (frame)) 
break; 


// 显示 输入 的 帧 
if (windowNameInput.length()!=0) 
cv::imshow (windowNameInput, frame); 


// 调用 处 理 溃 数 
if (GalLlity,-t{ 


// 处 理 帧 


process (frame, output); 
// 递增 帧 数 


fnumber+t+; 


} else { // 没有 处 理 
output= frame; 


i: 
// 显示 输出 的 帧 
if (windowNameOutput.length()!=0) 


cv::imshow (windowNameOutput,output); 


// 产生 延 时 
if (delay>=0 && cv: :waitKey (delay)>=0) 
StopIt () ; 


// 检查 是 否 需要 结束 
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if (frameToStop>=0 && 
getFrameNumber ()==frameToStop) 
stopIt(); 
} 
} 


// 结束 处 理 
void stopIt() { 


stop= true; 


} 


// 处 理 过 程 是 否 已 经 停止 ? 
bool isStopped() { 


return stop; 


} 


// 捕获 设备 是 否 已 经 打开 ? 
bool isOpened() { 


capture.isOpened(); 


} 


// 设置 帧 之 间 的 廷 时 ， 

// 0 表示 每 一 帧 都 等 待 ， 

// 负数 表示 不 廷 时 

void setDelay (int Q) { 


delay= 4d; 
} 


这 个 方法 使 用 了 一 个 用 于 读 取 帧 的 private 方 法 : 


// 取得 下 一 帧 ， 
// 可 以 是 : 视频 文件 或 者 摄像 机 


bool readqNextFrame (CV: :Mat& frame) { 


return capture.read(frame) : 


} 


run 方 法 首先 调用 OpenCV 的 类 cv: :Videocapture 的 read 方 法 ， 然 后 执行 一 系列 操作 。 但 
是 在 执行 之 前 ,要 先 检查 该 操作 是 否 需 要 执行 。 只 有 指定 了 输入 窗口 的 名 称 ( 用 displayInput 
方法 )， 才 会 显示 输入 窗 口 ; 只 有 指定 了 回调 函数 (用 setFrameProcessor 方 法 )， 才 会 运行 回 
调 函 数 ; 只 有 定义 了 输出 窗口 的 名 称 ( 用 displayoutput )， 才 会 显示 输出 窗口 ; 只 有 指定 了 延 
时 (用 setDelay ), 才 会 执行 延 时 。 最 后 , 如 果 定 义 了 需 处 理 的 最 大 帧 数 ( 用 stopAtFrameNo )， 
就 需要 检查 当前 的 帧 数 。 


你 或 许 还 希望 打开 并 播放 视频 文件 〈 不 调用 回调 函数 )。 所 以 我 们 准备 了 两 个 方法 ， 以 指定 
是 否 需要 调用 回调 函数 : 
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// 需要 调用 回调 函数 Process 


void callProcess() { 


callIt= true; 


} 


// 需要 调用 回调 函数 Process 


void dontCallProcess() { 


callIit= false; 
} 


最 后 ， 可 指定 是 否 需要 在 处 理 完 一 定数 量 的 帧 后 就 结束 : 

















void stopALFTrameNo (long frame) { 


frameToStop= frame; 


} 


// 返回 下 一 帧 的 编号 
long getFrameNumber() { 


// 从 捕获 设备 获取 信息 

long fnumber= static_ cast<long>( 
capture.get (CV_CAP_PROP_POS_FRAMES)); 

return fnumber; 


} 

类 中 还 包含 了 一 些 设计 方法 和 获取 方法 ， 这 些 方法 基本 上 只 是 封装 了 cv: :VideoCcapture 
框架 的 常规 方法 set 和 get。 
11.3.3 ”扩展 阅读 
使 用 vidqeoProcessor 类 有 助 于 视频 处 理 模块 的 部 署 。 它 还 可 以 做 几 项 改进 。 





1. 处 理 图 像 序列 


有 时 输入 序列 是 一 批 独立 存储 的 图 像 。 简 单 地 改动 一 下 这 个 类 就 可 以 适应 这 种 输入 。 只 需要 
添加 一 个 成 员 变 量 ， 该 变量 存储 了 图 像 文件 名 向 量 和 对 应 的 迁 代 器 : 

// 作为 输入 对 象 的 图 像 文件 名 向 量 

std: :vector<std: :string> images; 


// 图 像 向 量 的 选 代 器 


std: :Vector<Sstd: :String>::const_iterator itImg; 
用 新 的 set Input 方 法 指定 需要 读 取 的 文件 : 


// 设置 输入 图 像 的 向 量 


bool setInput (const std::vector<std::string>& imgs) { 
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fnumber= 0; 


// 防止 已 经 有 资源 与 VideoCapture 实 例 关联 


capture.release(); 


// 将 这 个 图 像 向 量 作为 输入 对 象 
images= imgs; 
itImg= images.begin(); 





return true; 


} 
isopened 方 法 现在 修改 成 这 样 : 


// 捕获 设备 是 否 已 经 打开 ? 
bool isOpened() { 


return capture.isOpened() || !images.empty(); 


} 


最 后 需要 修改 私有 方法 readNextFrame 5 改 成 根据 输入 内 容 选 择 从 视频 读 取 还 是 从 文件 名 


向 量 读 取 。 判 断 方法 是 查看 图 像 文件 名 向 量 是 否 为 空 ， 如 不 为 空 就 表明 输入 是 图 像 序列 。 调 用 


set Input 并 传人 视频 文件 名 ， 将 清空 该 向 





有 导 . 
里 : 





// 取得 下 一 帧 
// 可 以 是 : 视频 文件 、 摄 像 机 、 图 像 向 量 
bool readNextFrame (cv: :Mat& frame) 


if (images.size()==0) 
return capture.read(frame); 


else { 
if (itImg != images.end()) { 
frame= cv::imread(*itImg); 
itImg++; 
return frame.data != 0; 
} else 
return false; 


} 
} 


2. 使 用 帧 处 理 类 
在 面向 对 象 的 编程 中 ,最 好 使 用 帧 处 理 


























{ 

















类 而 不 是 帧 处 理 函 数 。 实 际 上 , 在 定义 视频 处 到 








EH 算法 


时 , 使 用 类 能 提供 更 大 的 灵活 性 。 我们 可 以 定义 一 个 接口 ,在 VideoProcessor 内 部 使 用 的 每 个 


类 都 需要 实现 该 接口 : 


// 处 理 帧 的 接口 
class FrameProcessor { 
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public: 

// 处 理 方法 

Virtual void process(cv:: Mat &input, cv:: Mat &output)= 0; 
> 


你 可 在 设置 方法 中 为 VideoProcessor 框 架 输 入 一 个 FrameProcessor 实 例 , 把 这 个 实例 赋 
给 新 增 的 成 员 变 量 frameProcessor， 这 个 成 员 变量 是 指向 FrameProcessor 对 象 的 指针 














// 设置 实现 FrameProcessor 接 口 的 实例 
void setFrameProcessor (FrameProcessor* frameProcessorPtr) 


{ 


// 使 回调 注 数 失效 

process= 0; 

// 这 个 就 是 即将 被 调用 的 帧 处 理 接口 
frameProcessor= frameProcessorpPtr; 
callProcess (); 


} 


在 指定 帧 处 理 实例 后 , 要 让 以 前 设置 的 帧 处 理 函数 失效 。 如 果 指 定 的 是 一 个 帧 处 理 函数 ,也 
需要 让 以 前 设置 的 实例 失效 。run 方 法 中 的 whi le 循环 也 要 做 相应 的 修改 : 





while (!isStopped()) { 


// 读 取 下 一 帧 (如果 有 ) 
if (!readNextFrame (frame)) 
break; 


// 显示 输入 的 帧 
if (windowNameInput.length()!=0) 
Cv::imshow (windowNameInput, frame); 


// ** 调用 处 理 函 数 或 方法 ** 
1 CoallLt) -于 


// 处 理 帧 
if (process) // 如 果 是 回调 函数 
process (frame, output); 
else if (frameProcessor) 
// 如 果 是 类 的 接口 
frameProcessor->process (frame,output); 
// 递增 帧 数 


fnumber++; 
} else { 

output= frame; 
// 显示 输出 的 帧 


if (windowNameOutput.length()!=0) 
cv::imshow (windowNameOutput,output); 
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// 产生 延 时 

if (delay>=0 && cv: :waitKey (delay)>=0) 
StoOBLTt()S 

// 检查 是 否 需 要 结 

if (frameToStop>=0 && getFrameNumber ()==frameToStop) 
SEEGEBIET( 


11.3.4 ”参阅 
口 11.5 节 中 有 使 用 FrameProcessor 接 口 类 的 例子 。 


11.4 ” 写 入 视频 帧 


在 前 面 几 节 , 我 们 学 了 如 何 读 取 视 频 文件 并 提取 其 帧 。 本 节 将 介绍 如 何 写 人 帧 并 创建 视频 广 
件 。 这 样 我 们 就 完成 了 典型 的 视频 处 理 过 程 : 读 取 视频 流 ， 处 理 其 中 的 帧 ， 然 后 在 新 的 视频 文件 
中 存储 结 


11.4.1 ”如何 实现 


OpenCV 用 cv: :VideoWriter 类 写 视频 文件 。 类 的 构造 函数 中 可 指定 文件 名 、 播放 所 生成 视 
频 的 帧 速率 、 每 个 帧 的 尺寸 、 是 否 创 建 彩色 视频 : 


writer.open(outputFile，// 文件 名 


codec, // 所 用 的 编 解 码 器 
framerate, // 视频 的 帧 速率 
frameSize, // 帧 的 尺寸 
isColor); // 彩色 视频 ? 


另外 ， 必 须 指明 保存 视频 数据 的 方式 ， 即 codec 参 数 。 本 节 的 最 后 部 分 将 详细 探讨 。 
打开 视频 文件 后 ， 可 以 通过 反复 地 调用 write 方 法 ， 在 视频 文件 中 加 入 帧 : 








writer.write(frame); // 在 视频 文件 中 加 入 帧 


简单 地 改动 上 节 的 vidqaeoProcessor 类 ， 就 可 以 增加 用 cv: :Videowriter 类 写 视 频 文件 的 
功能 。 下 面 是 一 个 简单 的 程序 ， 包 含 读 视频 、 处 理 视频 和 把 结果 写 人 视频 文件 等 功能 : 

















// 创建 实例 


VideoProcessor processor; 


// 打开 视频 文件 

processor.setIinput ("bike.avi"); 
processor.setFrameProcessor (canny); 
processor.setOutput ("bikeOut .avi"); 
// 开始 处 理 


11.4 写 入 视频 帧 245 





processor.run(); 


跟 上 节 一 样 , 用 户 要 能 选择 把 帧 写 入 独立 的 图 像 。 框架 中 采用 的 命名 规则 由 前 缀 和 固定 位 数 
的 数字 组 成 。 在 存储 帧 的 时 候 ， 这 个 数字 会 自动 递增 。 为 了 把 输出 结果 保存 到 一 系列 图 像 中 , 需 
要 这 样 修改 上 面 的 语句 : 





processor.setOutput ("bikeOut"，// 前 级 
"jpg", // 扩展 名 

3 // 数字 的 位 数 

0)// 开始 序号 


用 这 个 位 数 ， 调 用 时 会 创建 bikeOut000.jpg、bikeOut001.jpg 和 bikeOut002.jpg 等 文件 。 


11.4.2 ”实现 原理 


现在 介绍 如 何 修改 videoProcessor 类 ,使 它 能 写 入 视频 文件 。 首 先 必须 添加 一 个 
cv: :VideoWwriter 类 型 的 成 员 变 量 (还 有 几 个 其 他 属性 ): 





class VideoProcessor { 


private: 


// OpenCV 写 视频 对 象 
Cv::VideoWwriter writer; 
// 输出 文件 名 

std::string outputFile; 
// 输出 图 像 的 当前 序号 

int currentIindex; 

// 输出 图 像 文件 名 中 数字 的 位 数 
it LoL Ee 

// 输出 图 像 的 扩展 名 


std::string extension; 
用 一 个 额外 的 方法 指定 (并 打开 ) 输出 视频 文件 : 


// 设置 输出 视频 文件 

// 默认 情况 下 会 使 用 与 输入 视频 相同 的 参数 

bool setOutput (const std::string &filename, int codec=0, 
double framerate=0.0, bool isColor=true) { 





outputFile= filename; 
extension.clear(); 


if (framerate==0.0) 
framerate= getFrameRate(); // 与 输入 相同 


char :et[4): 
// 使 用 与 输入 相同 的 编 解 码 器 


if (codec==0) { 
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Codec= getCodec(c); 


} 


// 打开 输出 视频 


return writer.open(outputFile，// 文件 名 
codec, // 编 解 码 器 
framerate, // 视频 的 帧 速率 
getFrameSize()，// 帧 的 尺 二 
isColor); // 彩色 视频 ? 
} 
名 为 writeNextFra e 的 私有 方法 处 理 帧 的 写 人 过 程 ( 写 和 人 到 视频 文件 或 一 系列 图 像 ): 


// 写 输出 的 帧 





// 可 以 是 : 视频 文件 或 图 像 组 


void writeNextFrame (cv: 


} 


if (extension.length()) 


std::stringstream ss; 


// 组 合成 输出 文件 名 


ss << outputFile << std::setfill('0') 


:Mat& frame) { 


{ // 写 入 到 图 像 组 





<< std::setw(digits) 


<< currentIindex++ << extension; 


eV: 


} else { // 写 入 到 视频 文件 


writer.write (frame); 





:imwrite(ss.str(),frame); 


如 果 输 出 是 独立 的 文件 ， 就 需要 一 个 额外 的 获取 方法 : 


// 设置 输出 为 一 系列 图 像 文 件 


// 扩展 名 必须 是 .jpg、 
bool setOutput (const stdqd:: 





const std::string &ext, 
int numberOfDigits=3, 
int startIindex=0) { 


// 数字 的 位 数 必 须 是 正 数 
if (numberOfDigits<0) 
return false; 


// 文件 名 和 常用 的 扩展 名 
outputFile= filename; 
extension= ext; 


// 文件 编号 方案 中 数字 的 位 数 


digits= numberOfDigits; 
// 从 这 个 序号 开始 编号 


string &filename，// 前 级 
// 图 像 文 件 的 扩展 名 

// 数字 的 位 数 

// 开始 序号 





currentIindex= startIndex; 


return true; 
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最 后 在 run 方 法 的 视频 捕获 循环 中 添加 一 个 新 的 步 又 : 


while (!isStopped()) { 





// 读 取 下 一 帧 (如 果 有 ) 


if (!readNextFrame (frame)) 
break; 


// 显示 输入 帧 
if (windowNameInput.length()!=0) 
Cv::imshow (windowNameInput, frame); 


// 调用 处 理 函 数 或 方法 
Ea 革履 : 东 


// 处 理 帧 
if (process) 
process (frame, output); 
else if (frameProcessor) 
frameProcessor->process (frame, output); 
// 递增 帧 数 


fnumber+t+; 
} else { 


output= frame; 


} 


// ** 写 入 到 输出 的 序列 ** 
if (outputFile.length()!=0) 
writeNextFrame (output); 


// 显示 输出 的 帧 
if (windowNameOutput.length()!=0) 
cv::imshow (windowNameOutput,output); 


// 产生 延 时 
if (delay>=0 && cv: :waitKey (delay)>=0) 
stopIt(); 


// 检查 是 否 需要 结束 


if (frameToStop>=0 && getFrameNumber ()==frameToStop) 
stopIt(); 


11.4.3 扩展 阅读 


在 把 视频 写 信 文件 时 需要 使 用 一 个 编 解码 器 。 编 解码 器 是 一 个 软件 模块 , 用 于 编码 和 解码 视 
频 流 。 编 解码 器 定义 了 文件 格式 和 存储 信息 的 压缩 方案 。 很 明显 ， 用 革 种 编 解码 器 进行 编码 的 视 | 
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频 , 必须 用 同一 种 编 解码 器 才能 解码 。 因 此 人 们 使 用 含有 四 个 字符 的 代码 来 唯一 地 表示 一 种 编 解 





码 需 。 这 样 ， 软 件 工具 在 写 和 视频 文件 之 前 ， 需 要 先 读 取 这 个 四 
码 需 。 


编 解码 器 的 四 字符 代码 





字符 代码 ， 以 决定 采用 哪 种 编 解 


正如 其 名 称 所 示 ， 四 字符 代码 是 由 4 个 ASCII 字 符 组 成 的 ， 拼 在 一 起 也 可 以 转换 成 一 个 整数 。 
用 cv: :Videocapture 打 开 视 频 文件 , 然后 在 get 方 法 中 使 用 cv_cAP_PROP_FOURCC 标 志 , 就 能 
得 到 该 视频 文件 的 代码 。 我们 可 以 在 VideoProcessor 类 中 定义 一 个 方法 , 返回 输入 视频 的 四 字 


符 代码 : 
// 取得 输入 视频 的 编 解码 器 
int getCodec(char codec[4]) { 


// 对 于 图 像 向 量 ， 本 方法 无 意义 


if (images.size()!=0) return -1; 





union { // 表示 四 字符 代码 的 数据 结构 
int value; 
char code[4]; } returned; 
// 取得 代码 
returned.value= static cast<int> 
(capture.get (CV_CAP_PROP_FOURCC) ) ; 


// 取得 4 个 字符 

codec[0]= returned.codel[0] 
codec[1]= returned.code[1]; 
codec[2]= returned.code[2] 
codec[3]= returned.code[3] 


// 返回 代码 的 整数 值 
return returned.value; 


} 





























get 方 法 总 是 返回 一 个 double 型 数值 ， 然后 转换 成 整数 。 这 个 整数 就 是 代码 ， 可 以 用 union 
数据 结构 从 这 个 代码 提取 出 4 个 字符 。 打 开 测 试用 的 视频 序列 ， 然 后 使 用 以 下 代码 : 


char codec[4]; 

processor.getCodec (codec); 

std::cout << "Codec: " << codec[0] 
codec[3] << std::endl; 


用 上 述 语句 可 得 到 这 个 结果 : 


<< Codec[1] 





Codec : XVID 


<< codec[2] << 

















在 写 和 视频 文件 时 ,必须 用 四 字符 代码 指定 编 解码 器 。 这 就 是 cv: :VideoWriter 类 open 方 
法 的 第 二 个 参数 。 可 以 使 用 与 输入 视频 相同 的 代码 ( 这 是 setoutput 方 法 的 默认 选项 )。 也 可 以 
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传人 值 -1， 该 方法 会 弹出 一 个 窗口 ， 让 用 户 选 择 可 用 的 编 解码 器 ， 





Comp! 


Video Compression 


ressor 





到 





[Fu Frames {Uncompressed | 


加 


OK 
Cancel 
































如 下 图 所 示 : 





窗口 中 的 列表 所 显示 的 就 是 该 电脑 中 已 经 安装 的 编 解码 器 。 选 中 某 个 编 解码 器 后 , 它 的 代码 


就 会 自动 传 给 open 方 法 。 


11.4.4 ”参阅 


口 网 站 https:/www.xvid.com/ 提 供 




















了 基于 MPEG-4 视 频 压 缩 标准 的 开源 的 视频 编 解码 器 程序 

















库 。 还 有 一 种 Xvid 的 竞争 者 ， 名 为 DivX， 它 提供 了 专 有 但 免费 的 编 解 码 器 和 软件 工具 。 


11.5 ”跟踪 视频 中 的 特征 点 


本 章 的 内 容 包括 对 视频 序列 的 读 、 写 和 处 理 。 我 们 的 目标 是 能 够 分 析 完 整 的 视频 序列 。 作 为 
一 个 例子 ， 本 闻 我 们 来 学 习 如 何 对 视频 序列 做 时 序 分 析 ， 以 跟踪 在 帧 之 间 移 动 的 特征 点 。 


11.5.1 如何 实现 


在 启动 跟踪 过 程 时 ， 首先 要 在 最 初 的 
为 我 们 处 理 的 是 一 个 视频 序列 , 特 
























































帧 中 跟踪 这 些 特 征 点 。 














征 点 所 属 的 物体 很 可 能 会 移动 ( 这 种 移动 也 可 能 是 由 摄像 机 的 











运动 引起 的 )。 因 此 要 找到 特征 点 在 下 一 帧 的 新 位 置 ， 必 须 在 它 原来 位 置 的 周围 进行 搜索 。 这 个 
功能 由 水 数 cv: :calcopticalFlowPyrLK 实 现 。 在 函数 中 输入 两 个 连续 的 帧 和 第 一 个 图 像 中 特 











征 点 的 向 量 , 返回 新 的 特征 点 位 置 的 向 量 。 为 了 在 整个 视频 序列 中 跟踪 特征 点 ， 要 一 帧 一 帧 地 重 
复 上 述 过 程 。 因 为 在 跟踪 特征 点 时 要 穿越 视频 序列 ,不 可 避免 地 会 丢失 部 分 特征 点 ， 导 致 被 跟踪 





的 特征 点 数量 逐渐 减少 。 因 此 最 好 经 常 性 地 检测 新 特征 











点 


WO 





现在 我 们 利用 上 节 的 框架 来 定义 一 个 类 ， 实 现 11.3 节 中 介绍 的 FrameProcessor 接 口 。 这 个 








类 的 数据 属性 包含 检测 和 跟踪 特 和 





F 点 所 需 的 变量 : 


class FeatureTracker : public FrameProcessor { 


cv::Mat gray; £4 


当前 灰 度 图 像 
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cv::Mat gray_prev; // 上 一 个 灰 度 图 像 

// 被 跟踪 的 特征 ， 从 0 到 1 

std: :vector<cv::Point2f> points[2]; 

// 被 跟踪 特征 点 的 初始 位 置 

std: :vector<cv: :Point2f> initial; 

std: :vector<cv::Point2f> features; // 被 检测 的 特征 


int max_count; // 检测 特征 点 的 最 大 个 数 

double qlevel; // 检测 特征 点 的 质量 等 级 

double minDist; // 两 个 特征 点 之 间 的 最 小 差距 

std::vector<uchar> status; // 被 跟踪 特征 的 状态 

std: :vector<float> err; // 跟踪 中 出 现 的 误差 

public: 

FeatureTracker() : max_count (500), qlevel(0.01), minDist(10.) {} 


接 下 来 定义 process 方 法 , 它 将 在 处 理 序 列 中 的 每 个 帧 时 被 调用 。 一般 来 说 , 处理 过 程 包含 
以 下 儿 个 步骤 。 首 先 ， 如 果 需 要 就 检测 特征 点 。 然 后 跟踪 这 些 特 征 点 , 列 除 无 法 跟踪 或 不 需要 跟 
踪 的 特征 点 ,准备 处 理 跟踪 成 功 的 特征 点 。 最后， 当前 的 帧 和 特征 点 作为 下 一 个 迭代 项 的 上 一 帧 


和 上 一 























批 特征 点 。 下 面 是 具体 代码 : 





void process(cv:: Mat &frame, cv:: Mat &output) { 


// 转换 成 灰 度 图 像 
CVv::CvtColor(frame, gray, CV_BGR2GRAY); 
frame.copyTo (output); 





// 1. 如 果 必 须 添 加 新 的 特征 点 
if(addNewPoints()) 
{ 
// 检测 特征 点 
detectFeaturePoints(); 
// 在 当前 跟踪 列表 中 添加 检测 到 的 特征 点 
points[0] .insert (points[0] .end(),features.begin(), 
features.end()); 
initial.insert (initial.end(),features.begin(), 
features.end()); 


} 





// 对 于 序列 中 的 第 一 个 图 像 
if(gray_prev.empty ()) 
gray .copyTo (gray_prev); 


// 2. 跟踪 特征 

cv: :calcOpticalFlowPyrLK(gray_prev，gray，// 2 个 连续 图 像 
points[0]，// 输入 第 一 个 图 像 的 特征 点 位 置 

points[1]，// 输出 第 二 个 图 像 的 特征 点 位 置 

status，// 跟踪 成 功 

err); // 跟踪 误差 








// 3. 循环 检查 被 跟踪 的 特征 点 ， 别 除 部 分 
int k=0; 
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for( int i= 0; i < points[1] .size(); i++ ) { 


// 是 否 保留 这 个 特征 点 ? 
if (acceptTrackedPoint (i)) { 


// 在 向 量 中 保留 这 个 特征 点 
主人 和 十 富 二 叶 的 ] 三 年 玉 十 臣 二 全 二 下 守 ] 学 
points[1] [k++] = points[1] [i]; 
} 
} 


// 别 除 跟 踪 失 败 的 特征 点 
points[1] .resize(k); 
initial.resize(k); 


// 4. 处 理 已 经 认可 的 被 跟踪 特征 点 
handleTrackedPoints (frame, output); 


// 5. 当前 特征 点 和 图 像 变 成 前 一 个 
std::swap (points[1], points[0]); 
cv::swap(lgray_prev, gray); 


} 
这 个 方法 利用 了 4 个 实用 方法 。 如 果 要 自 定义 跟踪 功能 ， 可 以 很 方便 地 更 换 这 些 方 法 。 第 一 
个 方法 是 检测 特征 点 。 我 们 在 8.2 节 已 经 讨论 过 这 个 cv: :goodFeatureToTrack 方 法 : 


// 特征 点 检测 方法 
void detectFeaturePoints() { 








dv 


// 检测 特征 点 

cvVv: :goodFeaturesToTrack (gray，// 图 像 
features, // 输出 检测 到 的 特征 点 
max_count， // 特征 点 的 最 大 数量 





qlevel, // 质量 等 级 
minDist); // 特征 点 之 间 的 最 小 差距 
} 
第 二 个 方法 判断 是 否 需要 检测 新 的 特征 点 : 





// 判断 是 否 需要 添加 新 的 特征 点 
bool addNewPoints() { 


// 如 果 特征 点 数量 太 少 


return points[0] .size()<=10; 


_ 


第 三 个 方法 根据 程序 定义 的 条 件 剔 除 部 分 被 跟踪 的 特征 点 。 这 里 我 们 剔除 不 移动 的 特征 点 
(还 有 不 能 被 cv: :calcopticalFElowPyrLK 国 数 跟 踪 的 特征 点 ): 


// 判断 需要 保留 的 特征 点 


bool acceptTrackedPoint (int i) { 


return status[i] && | 
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// 如 果 已 经 移动 
(abs (points[0] [i] .x-points[1] [i]. 
Boints[l] [i y))S2)3 


x)+(abs (points[0] [i].y- 


} 








FE 点 , 具 


PAY 一 





最 后 ， 第 四 个 方法 处 理 被 跟踪 的 特 生 
初始 位 置 ( 即 第 一 次 检测 到 的 位 置 ): 


// 处 理 当前 跟踪 的 特征 点 














void handleTrackedPoints(cv:: Mat &frame, cv:: Mat &output) { 
// 遍历 所 有 特征 点 
for(int i= 0; i < points[1].size(); i++ ) { 
// 画 线 和 贺 
cv::line(output, 
initial[i]， // 初始 位 置 
points[1] [i],// 新 位 置 





virooalar(255255,255))3 
cv::circle(output, points[1] [i], 
(S27) 


3 CVviSaalar 


} 
可 以 写 一 个 简单 的 main 函 数 ， 跟 踪 视 频 序列 中 的 特征 点 


LA 。， 


T 





int main() 
{ 
// 创建 视频 处 理 类 的 实例 


VideoProcessor processor; 


// 创建 特征 跟踪 类 的 实例 


FeatureTracker tracker; 


// 打开 视频 文件 


processor.setInput ("../bike.avi"); 


// 设置 帧 处 理 类 


processor.setFrameProcessor (&tracker); 


// 声明 显示 视频 的 窗口 
processor.displayOutput ("Tracked Features"); 


// 以 原始 帧 速率 播放 视频 


processor.etDelayetDelay (1000./processor.getFrameRate()); 


// 开始 处 理 
processor.run(); 


} 
F 点 








体 做 法 是 在 当前 帧 画 直 线 ， 连 接 特 征 点 和 它们 的 


最 终 程 序 显示 被 跟踪 的 特 生 
个 视频 中 摄像 机 是 固定 不 动 ， 唯 一 
结果 : 





[LU 








随时 间 移 动 的 过 程 。 这 里 用 两 个 不 同 瞬间 的 帧 作为 例子 。 这 
的 移动 物体 是 年 轻 的 骑 车 人 。 下 面 是 处 理 完 一 些 帧 后 得 到 的 
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Tracked Features 














儿 秒 钟 后， 得 到 下 面 的 帧 : 





莉 Tracked Features 














11.5.2 ”实现 原理 
要 逐 帧 地 跟踪 特征 点 , 必须 在 后 续 帧 中 定位 特征 点 的 新 位 置 。 假设 每 个 帧 中 特征 点 的 强度 值 
是 不 变 的 ， 这 个 过 程 就 是 寻找 如 下 的 位 移 (u, v): 


T(x,y)=T(xt+u,y+y) 


t+l 


其 中 7 和 i 分别 是 当前 帧 和 下 一 个 瞬间 的 帧 。 强 度 值 不 变 的 假设 普遍 适用 于 相 邻 图 像 上 的 微 
小 位 移 。 我 们 可 使 用 泰勒 展开 式 得 到 近似 方程 式 ( 包含 图 像 导数 ): 


or or Aq 
T(xX+tu, y+yv) TT CD)+ 一 + 一 + 一 
1 人 


可 根据 第 二 个 方程 式 得 到 另 一 个 方程 式 ( 根据 强度 值 不 变 的 假设 ， 去 掉 了 两 个 表示 强度 值 | 
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的 项 ): 





这 就 是 著名 的 光 流 约束 方程 。Lukas-Kanade 特 征 跟踪 算法 使 用 了 这 个 约束 ,同时 又 做 了 一 个 
假设 , 即 特征 点 邻 域 中 所 有 点 的 位 移 量 是 相等 的 。 因此 我 们 可 以 将 光 流 约束 应 用 到 所 有 这 些 位 移 
量 为 (w,v) 的 点 (wu 和 v 还 是 未 知 的 ), 这 样 我 们 就 得 到 了 更 多 的 方程 式 , 数量 超过 未 知 数 的 个 数 (2 )， 
因此 可 以 在 均 方 意义 下 解 出 这 个 方程 组 。 在 实际 应 用 中 , 我 们 采用 迭代 的 方法 来 求解 。 而 且 为 了 
使 搜索 更 高 效 且 适应 更 大 的 位 移 量 ，OpenCV 提 供 了 在 不 同 分 辩 率 下 进行 计算 的 方法 。 默 认 的 
像 等 级 数量 为 3 ， 窗 口 大 小 为 15。 当 然 这 些 参数 是 可 以 修改 的 。 此 外 还 可 以 设 定 一 个 终止 条 件 ， 
符合 这 个 条 件 时 就 停止 迭代 搜索 。cv: :calcopticalFlowPyrLK 函 数 的 第 六 个 参数 是 剩余 均 方 
误差 ， 用 于 评定 跟踪 的 质量 。 第 五 个 参数 包含 二 值 标志 ， 表 示 跟 踪 对 应 的 点 是 否 成 功 。 


上 面 描述 了 Lukas-Kanade 跟 踪 算 法 的 基本 规则 。 具 体 实现 时 还 做 了 优化 和 改进 , 使 该 算法 在 
计算 大 量 特征 点 的 位 移 时 更 加 高 效 。 

































































11.5.3 ”参阅 


口 第 8 章 详 细 介 绍 了 检测 特征 点 的 方法 。 

口 B. Lucas 和 T. Kanade 发 表 在 Int. Joint Conference in Artificial Intelligence( 1981，674-679 页 ) 
的 经 典 论文 “An Iterative Image Registration Technique with an Application to Stereo Vision” 
描述 了 原始 的 特征 点 跟踪 算法 。 

口 J. Shi 和 C. Tomasi 发 表 在 IEEE Conference on Computer Vision and Pattern Recognition ( 1994， 

第 593 页 至 第 600 页 ) 的 “Good Features to Track” 描 述 了 原始 特征 点 跟踪 算法 的 改进 版 本 。 











11.6 ”提取 视频 中 的 前 景物 体 
用 固定 位 置 的 摄像 机 拍摄 时 ,背景 部 分 基本 上 是 保持 不 变 的 。 这 种 情况 下 , 我 们 关注 的 是 场 
景 中 移动 的 物体 。 为 了 提取 这 些 前 景物 体 , 我们 需要 构建 一 个 背景 模型 ， 然 后 将 模型 与 当前 帧 做 
比较 , 检测 出 所 有 的 前 景物 体 。 这 正 是 本 节 要 实现 的 内 容 。 前 景 提 取 是 智能 监控 程序 的 基本 步骤 。 
如 果 有 该 场景 的 背景 图 像 ( 即 没有 前 景物 体 的 帧 ) 供 我 们 使 用 , 那么 提取 当前 帧 的 前 景物 体 
就 会 非常 容易 ， 只 需要 比较 两 个 图 像 : 


// 计算 当前 图 像 与 背景 图 像 之 间 的 差异 


cv::absdiff (backgroundImage,currentImage, foreground); 


每 个 差异 足够 大 的 像素 都 可 作为 前 景 像素 。 但 是 在 大 多 数 情况 下 背景 图 像 是 很 难 获 得 的 。 实 
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际 上 很 难保 证 一 个 图 像 中 没有 任何 前 景物 体 ,并且 在 繁忙 的 场景 中 , 这 种 情况 是 极 少 出 现 的 。 并 
且 由 于 光照 条 件 变化 (如 从 日 出 到 日 落 入 背景 中 物体 的 增加 或 减少 等 原因 ， 背 景 也 会 随 着 时 间 


变化 。 


因此 有 必要 动态 地 构建 背景 模型 。 实现 方法 是 观察 该 场景 并 持续 一 段 时 间 。 如 果 我 们 做 一 个 
假设 : 在 每 个 像素 位 置 ， 背 景 在 绝 大 部 分 时 间 都 是 可 见 的 ,那么 建立 背景 模型 的 方法 就 很 简单 ， 
只 需 计算 所 有 观察 结果 的 平均 值 。 但 这 种 做 法 其 实 并 不 可 行 , 原因 有 多 个 。 首 先 , 在 计算 背景 之 
前 需要 存储 大 量 的 图 像 。 第 二 ,在 为 计算 平均 值 而 累计 图 像 的 时 候 ， 是 无 法 提取 前 景 的 。 这 种 解 
决 方案 还 需要 考虑 几 个 问题 ， 即 为 了 计算 可 靠 的 背景 模型 ,需要 累计 何 时 的 、 多 少数 量 的 图 像 。 
另外 , 如 果 有 些 图 像 中 的 某 个 像素 正在 监视 一 个 前 景物 体 , 那么 它们 就 会 对 计算 平均 背景 产生 很 
大 的 影响 。 

更 好 的 策略 是 用 定时 更 新 的 方式 ,动态 地 构建 背景 模型 。 实 现 方法 是 通过 计算 滑动 平均 值 ( 又 
叫 移动 平均 值 )。 这 是 一 种 计算 时 间 信 号 平均 值 的 方法 ， 并 且 该 方法 考虑 了 最 新 收 到 的 数值 。 假 
设 p. 是 时 间 t 的 像素 值 ，yi1 是 当前 的 平均 值 ， 那 么 要 用 下 面 的 公式 来 更 新 平均 值 : 
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其 中 参数 a 称 为 学 习 速 率 ， 它 决定 了 当前 值 对 计算 平均 值 的 影响 程度 。 这 个 值 越 大 ， 滑 动 平 
均值 对 当前 值 变 化 的 响应 速度 就 越 快 。 为 了 构建 背景 模型 ,必须 在 新 的 帧 到 达 时 对 每 个 像素 计算 
滑动 平均 值 。 然 后 就 可 以 根据 当前 图 像 与 背景 模型 之 间 的 差异 ， 判 断 一 个 像素 是 否 为 前 景 像素 。 

















11.6.1 如何 实现 


我 们 创建 一 个 用 滑动 平均 值 动态 构造 背景 模型 的 类 , 并 通过 减法 运算 提取 前 景物 体 。 这 个 类 
需要 有 以 下 属性 : 


class BGFGSegmentor : public FrameProcessor { 











cv::Mat gray; // 当前 灰 度 图 像 
cv::Mat background; // 累积 的 背景 
cv::Mat backImage; // 当前 背景 图 像 
cv::Mat foreground; // 前 景 图 像 





// 累计 背景 时 使 用 的 学 习 速 率 


double learningRate; 








int threshold; // 提取 前 景 的 阅 值 
主要 处 理 过 程 包括 将 当前 帧 与 背景 模型 作 比 较 ， 然 后 更 新 该 模型 ; 
// 处 理 方法 


Volid process(cv:: Mat &frame, cv:: Mat &output) { 


// 转换 成 灰 度 图 像 
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} 


使 


in 


{ 


} 


三 | 
> 


CVv::CvtColor(frame, gray, CV_BGR2GRAY); 


// 采用 第 一 帧 初始 化 背景 
if (background .empty () ) 
gray.convertTo(background, CV_32F); 


// 背景 转换 成 8U 类 型 
background.convertTo (backImage,CV_8U); 


// 计算 图 像 与 背景 之 间 的 差异 


cv::absdiff (backIimage,gray,foreground); 





// 在 前 景 图 像 上 应 用 阅 值 
cv::threshold(foreground,output,threshold,255,cyv:: 
THRESH_BINARY_INV); 


// 累积 背景 

cv::accumulateWeighted(gray, backgroungd, 
// alpha*gray + (1l-alpha)*background 
learningRate， // 学 习 速 率 
output ) ; // 掩 码 


用 自 定 义 的 视频 处 理 框架 ， 可 以 这 样 构建 前 景 提取 程序 : 





main() 


// 创建 视频 处 理 类 的 实例 


VideoProcessor processor; 


// 创建 背景 /前 景 的 分 割 器 
BGFGSegmentor segmentor; 
segmentor.setThreshold(25); 


// 打开 视频 文件 


processor.setInput ("bike.avi"); 


// 设置 帧 处 理 对 象 


processor.setFrameProcessor (&segmentor); 


// 声明 显示 视频 的 窗口 
processor.displayOutput ("Extracted Foreground"); 


// 用 原始 帧 速率 播放 视频 


processor.setDelay (1000./processor.getFrameRate()); 


// 开始 处 理 


processor.run(); 


后 得 到 一 些 二 值 前 景 图 像 ， 其 中 一 个 如 下 图 所 示 : 
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11.6.2 ”实现 原理 


用 cv: :accumulateweighted 孙 数 计算 图 像 的 滑动 平均 值 非常 方便 ， 它 在 图 像 的 每 个 像素 
上 应 用 滑动 平均 值 计算 公式 。 注 意 ， 作 为 结果 的 图 像 必须 是 浮 点 数 类 型 的 。 正 因为 如 此 ， 在 我 们 
将 背景 模型 与 当前 帧 做 比较 之 前 ， 必 须 先 把 它 转换 成 背景 图 像 。 对 差异 绝对 值 ( 先 用 
cv: :absdiff 计 算 , 然后 用 cv: :threshold ) 进行 闷 值 化 ， 以 提取 前 景 图 像 。 然 后 把 这 个 前 景 
图 像 作为 cv: :accumulatewWeignted 孙 数 的 掩 码 ， 以 避免 修改 已 被 认定 为 前 景 的 像素 。 之 所 以 
要 这 么 做 ， 是 因为 在 前 景 图 像 中 ,已 被 认定 为 前 景 的 像素 值 为 fal1se， 即 0 ( 这 也 是 结果 图 像 的 
前 景物 体 显 示 成 黑色 的 原因 )。 


最 后 需要 注意 , 为 了 简化 , 我 们 在 构建 背景 模型 时 采用 了 被 提取 帧 的 灰 度 图 像 。 如 果 构 建 彩 
色 背 景 , 就 需要 在 多 个 颜色 空间 下 计算 滑动 平均 值 。 不 过 在 刚才 介绍 的 方法 中 , 主要 的 难点 在 于 ， 
针对 特定 的 视频 ， 如 何 选 择 合适 的 阐 值 以 得 到 满意 的 结 



























































11.6.3 扩展 阅读 


上 述 提取 前 景物 体 的 方法 比较 简单 , 它 适用 于 背景 相对 固定 的 简易 场景 ,但 是 在 很 多 情况 下 ， 
背景 的 某 些 部 位 会 在 不 同 的 值 之 间 波 动 ， 导 致 背景 检测 结果 频繁 出 错 。 产生 这 种 现象 的 原因 ， 有 
移动 的 背景 物体 ( 如 树叶 入 刺眼 的 物体 ( 如 水 面 ), 等 等 。 物 体 的 阴影 也 会 产生 问题 ， 因 为 阴影 
是 会 移动 的 。 为 解决 这 些 问 题 ， 我 们 引入 了 更 复杂 的 背景 模型 。 



































高 斯 混合 方法 是 这 些 改进 型 算法 的 一 种 。 它 的 处 理 方式 与 前 面 介 绍 的 基本 一 致 , 但 做 了 几 项 


首先 ， 该 方法 适用 于 每 个 像素 有 一 个 以 上 的 模型 ( 即 一 个 以 上 的 滑动 平均 值 ) 的 情况 。 这 
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样 ， 如 果 一 个 背景 像素 在 两 个 值 之 间 波 动 ， 那 么 就 会 存储 两 个 滑动 平均 值 。 只 有 新 的 像素 值 不 
属于 任何 一 个 频繁 出 现 的 模型 ， 这 个 像素 才 会 被 认定 为 前 景 。 模 型 的 数量 可 以 在 参数 中 设置 ， 
通常 为 5 个 。 

第 二 ， 每 个 模型 不 仅 保存 了 滑动 平均 值 ， 还 保存 了 滑动 方差 。 它 的 计算 方法 如 下 : 





























ar =(-00or +a(p,—H) 




















计算 得 到 平均 值 和 方差 后 用 于 构建 高 斯 模型 , 根据 高 斯 模型 可 计算 某 个 像素 值 属 于 背景 的 概 
率 。 改 用 概率 而 不 是 绝对 差 值 来 表示 后 ， 浆 值 的 选择 就 会 更 加 容易 。 采 用 这 个 模型 后 ， 如 果 某 个 
区 域 的 背景 波动 较 大 ， 就 需要 有 更 大 的 差 值 才能 被 认定 为 前 景物 体 。 

最 后 ， 如 果菜 个 高 斯 模型 满足 条 件 的 概率 不 够 高 ， 它 就 会 被 排除 在 背景 模型 之 外 。 反 之 ,如 
果 发 现 一 个 像素 值 在 当前 背景 模型 之 外 ( 即 为 一 个 前 景 像素 ), 那么 就 会 创建 一 个 新 的 高 斯 模型 。 
如 果 随 后 这 个 新 建 的 模型 满足 条 件 了 ， 就 把 它 作为 正确 的 背景 模型 。 


比 起 前 面 的 前 景 /背景 分 割 法 ， 这 个 算法 更 加 复杂 ， 实 现 起 来 更 加 困难 。 幸 好 OpenCV 已 经 有 
了 现成 的 类 , 名 为 cv: :BackgroundSubtractorMO0G, 它 是 cv: :BackgroundSsubttractor 的 子 


类 ， 后 者 的 通用 性 更 强 。 如 果 采 用 默认 参数 ， 使 用 这 个 类 就 变 得 非常 简单 : 
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int main() 
{ 
// 打开 视频 文件 
Cv::VideoCapture capture ("bike.avi"); 
// 检查 打开 视频 是 否 成 功 
if (!capture.isOpened()) 
return 0; 
// 当前 视频 帧 
cv::Mat frame; 
// 前 景 的 二 值 图 像 
cv::Mat foreground; 
cv: :namedWindow ("Extracted Foreground"); 
// 混合 高 斯 模型 类 的 对 象 ， 全 部 采用 默认 参数 
cvV: :BackgroundSubtractorMOG mog; 
bool stopl(false); 
// 遍历 视频 中 的 所 有 帧 
while (!stop) { 
// 读 取 下 一 帧 (如 有 ) 
if (!Ccapture.readq(frame) ) 
break; 
// 更 新 背景 并 返回 前 景 
mog (frame, foreground,0.01) 
// 学 习 速 率 
// 改进 图 像 效 果 
cv::threshold(foreground, foregrouna， 
128,255,cv: :THRESH_BINARY_INV); 
// 显示 前 景 
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Cv::imshow ("Extracted Foreground",foreground); 


// 产生 延 时 ， 或 者 按键 结 
if (cv::waitKey(10)>=0) 
stop= true; 
} 
} 
在 代码 中 ,只 需 创建 这 个 类 的 实例 并 调用 它 的 一 个 方法 , 这 个 方法 更 新 背景 并 返回 前 景 图 像 
( 额外 的 参数 是 学 习 速 率 )。 另 外 ， 这 里 计算 的 背景 模型 是 彩色 的 。OpenCV 实 现 的 方法 还 包含 了 
排除 阴影 的 机 制 , 其 原理 是 检查 亮度 的 局 部 变化 是 否 为 像素 值 变化 的 唯一 原因 , 或 者 是 否 包 含 了 
色 度 的 变化 。 


此 外 还 有 该 模型 的 第 二 种 实现 方法 , 称 为 cv: :BackgroundSubtractorMO0G2。 它 所 做 的 一 
个 改进 是 ， 动 态 地 确定 每 个 像素 上 高 斯 模型 的 数量 。 上 述 例子 中 可 用 这 个 类 替代 原来 使 用 的 类 。 
可 以 针对 一 些 视频 使 用 这 两 种 不 同 的 方法 ， 观察 它们 各 自 的 性 能 。 一 般 来 说 ,使 用 


cv: :BackgroundSubtractorMOG2 会 快 得 多 。 


















































11.6.4 ”参阅 


口 C. Stauffer 和 W.E.L. Grimson 发 表 在 Conf: on Computer Vision and Pattern Recognition ( 1999 
年 ) 的 论文 “Adaptive Background Mixture Models for Real-Time Tracking” 更 完整 地 描述 
了 混合 高 斯 算法 。 
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